2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分類號(hào):密級(jí):UDC:學(xué)號(hào):碩士學(xué)位論文2015年5月27日結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用Theresearchapplicationofthetextclusteringthatcombinedwithweightingfactfeaturevect學(xué)位類別:____工程碩士______作者姓名:郭士串學(xué)科、專業(yè):計(jì)算機(jī)技術(shù)指導(dǎo)教師:董躍華研究方向:數(shù)據(jù)挖掘江西理工大學(xué)碩士學(xué)位論文

2、摘要I摘要文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預(yù)處理和文本聚類算法執(zhí)行兩個(gè)方面。文本聚類方法目前已經(jīng)被廣泛的應(yīng)用于輿情分析、搜索引擎、電子圖書等服務(wù)。文本聚類過程屬于典型的無監(jiān)督學(xué)習(xí)方法,在聚類之前無需知道每個(gè)類別的描述信息。這也是文本聚類的難點(diǎn),眾多研究者都對其進(jìn)行研究,并取的了豐富的研究成果。在文本進(jìn)行聚類之前需對文本進(jìn)行預(yù)處理,需要通過使用數(shù)學(xué)的方法表示文本,一般通過向量空間模型對文本進(jìn)行表示。通

3、過該模型表示的文本都是由文本本身的特征詞與其權(quán)重構(gòu)成的向量。但通過傳統(tǒng)方法計(jì)算的特征詞權(quán)重在表示文本時(shí)有一定的局限性,不能通過特征詞權(quán)重充分體現(xiàn)文本間的差異性。而且在傳統(tǒng)模型中不會(huì)考慮特征詞出現(xiàn)的先后順序,更不會(huì)考慮特征詞在不同位置出現(xiàn)代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數(shù)聚類算法不能很好的結(jié)合文本的編碼方案。本文主要對文本聚類方法的改進(jìn)和應(yīng)用做了如下研究:1、首先分析了傳統(tǒng)特征詞權(quán)重計(jì)算方法對通過特征詞權(quán)

4、重表示文本的局限性,并且通過權(quán)重因子對特征詞權(quán)重計(jì)算方法做出了改進(jìn)。該方法強(qiáng)調(diào)了特征詞權(quán)重在文本集合中的重要性,而不是單純的想通過特征詞權(quán)重表示文本,增強(qiáng)了同類文本之間的相似度。并在對文本進(jìn)行編碼時(shí)修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權(quán)重信息。最后考慮到文本編碼方案的修改對文本間相似度計(jì)算的影響,重構(gòu)了文本相似度計(jì)算公式。2、其次根據(jù)改進(jìn)的文本預(yù)處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K

5、均值文本聚類算法進(jìn)行改進(jìn)。使用GCF對遺傳算子操作進(jìn)行控制,使得算子中的優(yōu)質(zhì)個(gè)體一定被引入下一代,從而克服了遺傳K均值算法算子操作的低效性。使其應(yīng)用到本文改進(jìn)的文本編碼方案中能更好的改進(jìn)聚類效果并且提高聚類精度。最后對改進(jìn)的文本聚類方法進(jìn)行實(shí)驗(yàn)分析,證明了改進(jìn)的方法在文本聚類精度上有明顯提高。3、最后將結(jié)合權(quán)重因子和特征向量改進(jìn)的文本聚類算法應(yīng)用到輿情熱點(diǎn)發(fā)現(xiàn)中,對具體應(yīng)用做了詳細(xì)分析和流程安排。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法對輿情熱點(diǎn)的趨勢和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論