面向詞典編撰的詞匯聚類研究_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1分類詞典編撰的領(lǐng)域詞語聚類實(shí)現(xiàn)分類詞典編撰的領(lǐng)域詞語聚類實(shí)現(xiàn)劉華1中文提要:中文提要:針對分類詞典中學(xué)科詞條的獲取和選擇問題,我們利用文本分類和聚類中特征提取的方法進(jìn)行詞語聚類,從而達(dá)到輔助詞典編撰的目的。關(guān)鍵詞:關(guān)鍵詞:分類詞典文本分類特征提取詞語聚類StudiesonWdsClusteringinlexicographyLiuHua1,2ZhouLingYan1ZhangPu21(CollegeofChineseLanguageC

2、ultureofJinanUniversity,Guangzhou,510000)2(BeijingLanguageUniversity,Beijing,100000)Email:liuhua0461@Abstract:FobtainingingsubjectlemmaauxiliarytobuildingclassifieddictionarythispaperpresentsanalgithmthatclustersfieldWds

3、inlargescaleclassedcpusbyacterextractionintextclassing.Keywds:LexicographyTextClassingacterExtractionWdsClustering詞典或詞庫建設(shè)是一項(xiàng)重要的基礎(chǔ)性工程,詞典編撰工作量巨大、枯燥繁瑣。在信息化高度發(fā)展的今天,如何利用高科技手段輔助詞典編撰已成為一項(xiàng)非常有意義的課題。針對分類詞典編撰中學(xué)科詞條(每一條目的條頭,可能是詞或短語,本

4、文通稱為詞條,下同)的獲取和選擇問題,我們利用文本分類和聚類中特征提取的方法進(jìn)行詞語聚類,從而達(dá)到輔助詞典編撰的目的。1.1.分類詞典編撰的兩個關(guān)鍵問題分類詞典編撰的兩個關(guān)鍵問題現(xiàn)代詞典按其收錄內(nèi)容和用途可分為:語文詞典、綜合性詞典和專科性詞典。其中,綜合性詞典和??菩栽~典常常以學(xué)科(或題材)為綱來進(jìn)行組織編排[1]。綜合性詞典收錄內(nèi)容廣泛,涉及各個領(lǐng)域,便于查找最基本的知識和資料,往往只選擇重要的或查檢率較高的詞目收錄,而在涉及各學(xué)科

5、體系的深度和收詞的平衡及完整性方面有它薄弱的一面。這樣在查檢某一學(xué)科、專業(yè)的知識時則主要利用專科詞典。人類很早就有將詞匯按題材分類編纂的傳統(tǒng),距今2000多年前編纂的《爾雅》是最早的分類詞典雛形。近現(xiàn)代,分類詞典的出版空前繁榮,出現(xiàn)了很多??圃~典,基本上涵蓋了各學(xué)科。按學(xué)科(或題材)編撰詞典的兩個關(guān)鍵問題在于學(xué)科詞條的獲取和選擇。1.2.11.2.1學(xué)科詞條的獲取學(xué)科詞條的獲取以往的詞條通常是由學(xué)科領(lǐng)域的專家利用其學(xué)科經(jīng)驗(yàn)來提供,這一方

6、面保證了學(xué)科詞條的準(zhǔn)確性,但另一方面又帶來了一些問題。如個人主觀性太大,難以保證詞條的一致性,特別是對于那些新出現(xiàn)的沒有定論的學(xué)科術(shù)語更是如此;個人或幾個人的力量畢竟有限,很難保證詞條的學(xué)科涵蓋性,特別是在編撰綜合性詞典時,如何調(diào)動大規(guī)模的領(lǐng)域?qū)<覅f(xié)同工作,更是一個大問題;信息化時代的到來,特別是網(wǎng)絡(luò)的發(fā)展,使得知識更新非??欤瑔渭円揽繉<业?劉華,男,02級博士生,研究方向:計(jì)算語言學(xué),智能檢索,email:liuha0461@3中出

7、現(xiàn)的頻度越高,在其它文檔集(如“經(jīng)濟(jì)”、“軍事”……,我們稱之為背景語料,作對比用的)中出現(xiàn)的頻度越低,說明它在區(qū)分該文檔集的內(nèi)容屬性(“體育”類)方面的能力越強(qiáng)。因此,領(lǐng)域特征詞語的提取實(shí)際上是通過計(jì)算詞語在不同領(lǐng)域語料中的分布情況來實(shí)現(xiàn)的。根據(jù)此原理,我們可以通過計(jì)算詞語的TFIDF值來進(jìn)行詞語的領(lǐng)域(話題)聚類。2.32.3特征領(lǐng)域聚類實(shí)現(xiàn)特征領(lǐng)域聚類實(shí)現(xiàn)我們依照上面的方法流程進(jìn)行了特征抽取和領(lǐng)域聚類。訓(xùn)練用的分類語料庫約60萬個

8、XML文件,6億字,時間跨度為三年(02、03、04),文件標(biāo)注了語料的標(biāo)題、關(guān)鍵詞、類別(詳細(xì)標(biāo)明到細(xì)致的主題,如“經(jīng)濟(jì)證券債券”,共244個)、時間、段落等屬性。具體領(lǐng)域(只列舉了大類)和文件數(shù)分布如下:類別文件數(shù)類別文件數(shù)時政新聞_國際59130旅游18471時政新聞_國內(nèi)119695文藝14248時政新聞_軍事21743游戲22843時政新聞_社會42559汽車21745經(jīng)濟(jì)40115教育24405科技53126房產(chǎn)19573體

9、育96120生活男女19382娛樂23905總計(jì)597060具體步驟如下:Step1:雙向最大切分。切分底表對特征提取至關(guān)重要,如果需要提取的特征詞不在底表中,則無法提取出該特征詞,我們的底表包含三十二萬詞條,含領(lǐng)域詞語二十五萬。Step2:統(tǒng)計(jì)詞次。統(tǒng)計(jì)時根據(jù)位置加權(quán),加權(quán)時文本長度會對加權(quán)因子產(chǎn)生影響。對關(guān)鍵詞、標(biāo)題加權(quán)時,應(yīng)該動態(tài)加權(quán),即按文章正文詞數(shù)動態(tài)調(diào)整加權(quán)系數(shù)。標(biāo)題加權(quán)底數(shù)為2,關(guān)鍵詞加權(quán)底數(shù)為3,正文詞數(shù)按200字分級,

10、每增加一級,在原來系數(shù)上相應(yīng)加1。Step3:權(quán)重計(jì)算。按照2、2節(jié)中的公式計(jì)算每個詞在類中的權(quán)重,n(n=1)參數(shù)主要用來調(diào)節(jié)詞頻的影響,當(dāng)n取值小時,傾向于詞頻大的詞;當(dāng)n取值大時,則詞頻的影響減弱,傾向于詞頻小的詞。Step4:特征選擇。通過設(shè)定閾值來確定不同文檔類所對應(yīng)的特征向量[4]。3.3.領(lǐng)域聚類結(jié)果分析領(lǐng)域聚類結(jié)果分析上文(第1節(jié))列舉了分類詞典編撰中兩個關(guān)鍵性的問題,其中第一個問題實(shí)際上是個分類問題,即將詞語歸入到其所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論