2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、Support Vector Machine による日本語係り受け解析,奈良先端科學技術大學院大學情報科學研究科 自然言語処理學講座工藤 拓 松本裕治,係り受け解析,日本語の統(tǒng)語解析の基本技術の1つ二文節(jié)間の係りやすさを數(shù)値化した行列を作成し,文全體を最適化する係り受け関係を?qū)С鋈耸证摔瑜胧址à椤⒔馕鰷gみコーパスから統(tǒng)計的に求める手法へ,統(tǒng)計的係り受け解析,入力文節(jié)列,係り先パターン列,文節(jié) i, j の言語的特徴

2、を示すn次元素性ベクトル,係り関係がすべて獨立だと仮定,従來手法の問題點(1),慎重な素性選択が必要多くの素性を使用すると過學習してしまう最適な素性集合の選択は試行錯誤や人手に頼っている,従來手法の問題點(2),各素性の組み合わせ(共起,依存関係)を効率よく學習できない共起選択の方法はさまざま,人手により発見的に選択細かな依存関係を見ると… データスパースネス,計算量増加,過學習,例,Supp

3、ort Vector Machine(1),V.Vapnik 95入力素性數(shù)に依存しない汎化能力を持ち過學習しにくい計算量をほとんど変えることなく,素性どうしの組み合わせ(共起,依存関係)を含めた學習が可能,SVM(2),線形2値(正例,負例)分類器,Euclid空間上の平面で分離,正例,負例,その他(マージン領域),の3つの領域に分割,SVM(3),,,,,,,,,,,,,マージン d を最大にするためには ||w|| を最小にす

4、ればよい,,,,SVM(4),以下の制約付き多項式の最適化問題に帰著,Lagrange乗數(shù) αを?qū)毪筏齐p対問題に変換,最終的な識別関數(shù),最小化:,制約條件:,制約條件:,最大化:,Kernel関數(shù)(1),線形分離できない場合,,各素性をの組み合わせを展開し,より高次元の素性ベクトル空間に射影すれば線形分離しやすくなる,Kernel関數(shù)(2),學習:,識別関數(shù):,Kernel関數(shù)(3),例,d次のPolynomial関數(shù),2次元を6次

5、元の空間へ寫像,組み合わせの項も追加されるd次のPolynomial関數(shù)はd個までの組み合わせを含めた學習,SVM(まとめ),入力素性數(shù)に依存しない汎化能力を持ち過學習しにくいマージン最大化計算量をほとんど変えることなく素性どうしの組み合わせを含めた學習が可能Kernel関數(shù)d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略Smoothingの効果が期待できる,SVMによる係り受け解析(1),正例,負例

6、の與え方,,學習データ中の全係り受け候補,係った事例 → 正例,係らなかった事例 → 負例,SVMによる係り受け解析(2),係り受け確率,(Sigmoid関數(shù)),,厳密には確率値ではない,距離を確率値に正規(guī)化,Sigmoid関數(shù)は確率へのよい近似を與えることが実験的に示されている (J.Platt 99)従來からある確率モデルの枠組で解析関根99の文末からビームサーチを行う解析手法を採用,靜的素性と動的素性

7、,靜的素性2文節(jié)の主辭の語彙,品詞,2文節(jié)間距離など文節(jié)まとめあげの段階で決定される,動的素性係り関係そのもの,解析しながら動的に追加動的素性も含めてビームサーチ,実験環(huán)境,設定(1),京都大學テキストコーパスVersion2.0の一部學習データ 1月1日-8日 7958文テストデータ 1月9日 1246文內(nèi)元98と同じ學習データ,テストデータKernel関數(shù)は,Polynomial関數(shù),次元數(shù) d=3Beam幅 k=

8、5評価方法係り受け正解率文末から2番目の評価含める (A) デフォルト, 含めない(B)文正解率,実験環(huán)境,設定(2),実験結(jié)果(1)(d=3,k=5),実験結(jié)果(2)(d=3,k=5),動的素性の効果(d=3,k=5),Kernel関數(shù)と解析精度,ビーム幅と解析精度,関連研究との比較,內(nèi)元98との比較最大エントロピー法に基づくモデル87.2%の精度 (本手法は89.1%)素性の組み合わせ(共起,依存関係)の重要性を指

9、摘しているが,組み合わせは,人手により発見的に 選択,有効な組み合わせを網(wǎng)羅できない本手法はKernel関數(shù)の変更のみ,網(wǎng)羅性, 一貫性という意味で優(yōu)位,今後の課題,明らかに係らない制約を(人手により)導入他の計算コストの少ないモデルとの融合誤り駆動型による素性選択,,全係り受け関係を用いるため,多くの計算量が必要,まとめ,7958文という非常に少量のデータにもかかわらず,89.1%の高い精度を示すSVMの持つ,高次元の入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論