版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),隨著互聯(lián)網(wǎng)的迅速普及,整個(gè)社會(huì)進(jìn)入了一個(gè)信息爆炸的大數(shù)據(jù)時(shí)代。新疆是一個(gè)有著多個(gè)民族聚居的地區(qū),在這里多種語(yǔ)言被廣泛使用。隨著新疆地區(qū)經(jīng)濟(jì)和文化的迅速發(fā)展,哈薩克語(yǔ)作為新疆幾大主流語(yǔ)言之一,其使用人數(shù)也在逐年上升,哈薩克文網(wǎng)頁(yè)數(shù)量的增長(zhǎng)速度也越來(lái)越快。如何在海量的哈薩克文網(wǎng)絡(luò)文本中快速準(zhǔn)確的找到人們感興趣的熱點(diǎn)信息成為了關(guān)注的焦點(diǎn)。本文即探討如何對(duì)互聯(lián)網(wǎng)上的海量哈薩克文網(wǎng)頁(yè)信息進(jìn)行分析、處理,從而獲取近期流行熱點(diǎn)詞的相關(guān)技術(shù)問題
2、。
結(jié)合哈薩克文語(yǔ)言特點(diǎn),對(duì)哈薩克文熱點(diǎn)詞提取方法進(jìn)行了研究。本文從人民網(wǎng)哈語(yǔ)版和天山網(wǎng)哈語(yǔ)版這兩個(gè)哈薩克文網(wǎng)站獲取新聞網(wǎng)頁(yè),作為本文的測(cè)試語(yǔ)料,經(jīng)過(guò)預(yù)處理后引入詞匯信息熵結(jié)合3σ準(zhǔn)則的方法來(lái)過(guò)濾哈薩克文新聞文本中的“無(wú)關(guān)詞”,后續(xù)再通過(guò)熱點(diǎn)詞提取算法得到相關(guān)熱點(diǎn)詞。本文的研究?jī)?nèi)容主要包括:
?。?)通過(guò)查閱文獻(xiàn)及相關(guān)資料簡(jiǎn)要總結(jié)和分析了網(wǎng)絡(luò)輿情及熱點(diǎn)詞提取技術(shù)的重要研究背景、意義及研究現(xiàn)狀,對(duì)常見的詞匯權(quán)值計(jì)算方法進(jìn)
3、行了相關(guān)介紹。
?。?)利用網(wǎng)絡(luò)爬蟲對(duì)哈薩克文新聞網(wǎng)站進(jìn)行采集獲取真實(shí)新聞?wù)Z料,進(jìn)行正文抽取,去除網(wǎng)頁(yè)中的無(wú)用信息。后續(xù)對(duì)抽取的新聞文本進(jìn)行分詞、停用詞過(guò)濾、詞干提取等預(yù)處理,得到候選熱點(diǎn)詞集合。
(3)在熱點(diǎn)詞提取過(guò)程中,通過(guò)分析候選詞集發(fā)現(xiàn),其中含有一定數(shù)量的頻率很低或頻率很高但與表達(dá)實(shí)際意義作用不大的詞語(yǔ),稱之為“無(wú)關(guān)詞”。本文利用詞匯的信息熵結(jié)合3σ準(zhǔn)則的方法來(lái)剔除哈薩克文新聞文本中的“無(wú)關(guān)詞”。實(shí)驗(yàn)結(jié)果表明,
4、此方法可有效過(guò)濾這類“無(wú)關(guān)詞”。
?。?)結(jié)合哈薩克文研究現(xiàn)狀,深入分析了TF-PDF算法,結(jié)合媒體關(guān)注度思想及詞頻位置因子加權(quán)對(duì)其進(jìn)行了改進(jìn),構(gòu)造了熱點(diǎn)詞熱度權(quán)值公式L-HKAD(Local-Hot Keywords Attention Degree),來(lái)定量的描述候選詞匯受關(guān)注的程度。在此基礎(chǔ)上又利用了詞匯共同出現(xiàn)的頻率信息及其組配相關(guān)度對(duì)提取出的熱點(diǎn)詞匯進(jìn)行了適當(dāng)?shù)慕M合,在一定程度上減少了詞語(yǔ)“分離”現(xiàn)象。
?。?
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)輿情熱點(diǎn)主題詞提取研究.pdf
- 基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)關(guān)鍵詞推薦研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)事件的熱源研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的研究.pdf
- 面向網(wǎng)絡(luò)輿情分析的社會(huì)熱點(diǎn)話題技術(shù)研究.pdf
- 面向政務(wù)需求的網(wǎng)絡(luò)輿情分析方法研究.pdf
- 面向網(wǎng)絡(luò)輿情任務(wù)的本體學(xué)習(xí)方法研究.pdf
- 網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)發(fā)現(xiàn)算法研究.pdf
- 面向輿情監(jiān)控的熱點(diǎn)人物及事件分析技術(shù).pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)的獲取與挖掘技術(shù)的研究.pdf
- 微博網(wǎng)絡(luò)輿情熱點(diǎn)生長(zhǎng)分析模型研究.pdf
- 基于語(yǔ)義的網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究.pdf
- 面向網(wǎng)絡(luò)輿情的觀點(diǎn)樹挖掘研究.pdf
- 基于云計(jì)算的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與分析研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)事件中的話語(yǔ)激活研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究.pdf
- 基于社區(qū)發(fā)現(xiàn)的網(wǎng)絡(luò)輿情熱點(diǎn)主題識(shí)別研究.pdf
- 面向網(wǎng)絡(luò)輿情分析的數(shù)據(jù)采集與管理方法研究.pdf
- 網(wǎng)絡(luò)輿情熱點(diǎn)檢測(cè)與跟蹤技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論