版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本文首先對(duì)現(xiàn)有中文分詞相關(guān)理論和方法以及存在的主要問(wèn)題進(jìn)行了深入分析,重點(diǎn)研究了統(tǒng)計(jì)模型在自然語(yǔ)言處理領(lǐng)域中的應(yīng)用。在此基礎(chǔ)上針對(duì)農(nóng)業(yè)垂直搜索領(lǐng)域的特殊需求及應(yīng)用環(huán)境,提出了基于詞典和統(tǒng)計(jì)語(yǔ)言模型的中文分詞方法。該方法通過(guò)改進(jìn)的全切分算法建立分詞矩陣,實(shí)現(xiàn)了所有類型歧義的識(shí)別,生成粗分結(jié)果集,然后利用 N元語(yǔ)法模型從中選擇概率最大的切分結(jié)果,經(jīng)過(guò)基于最大熵模型的詞位標(biāo)注方法識(shí)別未登錄詞后得出最終的分詞結(jié)果,最后給出了基于此方法的中文分詞
2、原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。
本文提出的分詞方法在三個(gè)方面進(jìn)行了改進(jìn),首先是通過(guò)大規(guī)模語(yǔ)料庫(kù)識(shí)別具有切分標(biāo)志意義的特征字建立特征字庫(kù),通過(guò)特征字對(duì)經(jīng)過(guò)預(yù)處理的語(yǔ)句集進(jìn)行初步切分,有效降低了粗分階段的字串長(zhǎng)度。其次采用改進(jìn)的全切分模型,通過(guò)字位標(biāo)注建立分詞矩陣,能夠有效檢測(cè)歧義邊界,識(shí)別所有類型的歧義,并篩選出包含歧義的切分形式,通過(guò)bigram模型進(jìn)行概率計(jì)算,選擇最優(yōu)切分形式。最后,建立農(nóng)業(yè)專業(yè)術(shù)語(yǔ)、中文人名、中文機(jī)構(gòu)名專業(yè)詞庫(kù),
3、統(tǒng)計(jì)構(gòu)詞規(guī)律,選擇合適的特征模板,生成樣本數(shù)據(jù),利用詞位標(biāo)注的思想,通過(guò)最大熵模型實(shí)現(xiàn)對(duì)未登錄詞的識(shí)別。
本文設(shè)計(jì)了三個(gè)方面的實(shí)驗(yàn),對(duì)改進(jìn)的全切分算法和傳統(tǒng)全切分算法的性能進(jìn)行比較;在4詞位標(biāo)注集上選擇不同的上下文窗口寬度對(duì)基于最大熵模型的未登錄詞識(shí)別率的比較;將該原型系統(tǒng)與 ICTCLAS、Paoding以及 IKAnalyzer進(jìn)行綜合性能的比較。實(shí)驗(yàn)結(jié)果表明,使用本文提出的分詞模型的原型系統(tǒng)召回率達(dá)到93.6%,準(zhǔn)確率達(dá)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文分詞技術(shù)在搜索引擎中的研究與應(yīng)用.pdf
- 搜索引擎中文分詞技術(shù)研究.pdf
- 搜索引擎中文分詞原理與實(shí)現(xiàn)
- 新聞垂直搜索引擎中文分詞與網(wǎng)頁(yè)去重的應(yīng)用與研究.pdf
- 基于中文分詞的搜索引擎設(shè)計(jì)實(shí)現(xiàn).pdf
- 垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用.pdf
- 垂直搜索引擎在簡(jiǎn)歷篩選中的應(yīng)用研究.pdf
- 垂直搜索引擎的研究.pdf
- 農(nóng)業(yè)垂直搜索引擎的研究與設(shè)計(jì).pdf
- 垂直搜索引擎在團(tuán)購(gòu)網(wǎng)站中的研究與應(yīng)用.pdf
- 化工類專業(yè)搜索引擎中的中文分詞設(shè)計(jì).pdf
- Web服務(wù)在搜索引擎中的應(yīng)用研究.pdf
- 最優(yōu)搜索理論在元搜索引擎中的應(yīng)用研究.pdf
- 垃圾頁(yè)面檢測(cè)及其在垂直搜索引擎中的應(yīng)用.pdf
- 基于Nutch的農(nóng)業(yè)垂直搜索引擎的研究.pdf
- 垂直搜索引擎系統(tǒng)的研究.pdf
- 基于PageRank算法的中文垂直搜索引擎的研究與應(yīng)用.pdf
- 基于Nutch搜索引擎的中文分詞算法研究與實(shí)現(xiàn).pdf
- 垂直育兒搜索引擎研究.pdf
- 搜索引擎中中文分詞與糾錯(cuò)模塊的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論