網(wǎng)絡(luò)輿情敏感話題發(fā)現(xiàn)平臺的研究.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)作為重要的交流渠道,其存儲和傳輸?shù)男畔?,尤其是一些敏感話題,對于大眾輿論的形成和傳播有著舉足輕重的影響,其潛在的安全威脅也是不可估量的。因此,敏感話題主動發(fā)現(xiàn)技術(shù)已經(jīng)成為一項緊迫而又重要的課題。網(wǎng)絡(luò)輿情敏感話題發(fā)現(xiàn)平臺圍繞著網(wǎng)絡(luò)信息分析和處理中的各項關(guān)鍵技術(shù),主要是對預(yù)處理后的網(wǎng)絡(luò)信息進行分詞和結(jié)構(gòu)化存儲及在此基礎(chǔ)上的敏感話題發(fā)現(xiàn)技術(shù),進行了系統(tǒng)的研究。 論文設(shè)計并實現(xiàn)了基于網(wǎng)絡(luò)信息分詞結(jié)果與敏感詞庫匹配的網(wǎng)絡(luò)輿情敏感話題

2、發(fā)現(xiàn)平臺。針對中文網(wǎng)絡(luò)輿情敏感信息的分詞,本系統(tǒng)實現(xiàn)了基于層疊隱馬爾可夫模型的中文詞法分析方法,將中文分詞、切分歧義排除、未登錄詞識別和詞性標(biāo)注整合到一個框架中。對敏感詞庫的管理,通過鏈表和序列化方式保證敏感詞庫的完整性和可傳遞性。關(guān)于敏感話題的發(fā)現(xiàn),采用逆向思維的識別過程,將處理后的話題與敏感詞庫匹配,即將分詞結(jié)果在敏感詞庫中查詢并識別出敏感話題,從而提高了敏感話題的識別發(fā)現(xiàn)效率。 基于以上工作,對提高敏感話題發(fā)現(xiàn)平臺的性能上

3、進行了以下幾點探索:通過實驗比對完全二階隱馬爾可夫模型(FHMM2)與隱馬爾可夫模型(HMM)的分詞準確率與召回率,得出FHMM2在統(tǒng)計效果和精確率上有著明顯的優(yōu)勢;對現(xiàn)有分詞詞典的改進提出了基于四字Hash機制的分詞詞典;在基于語義的敏感話題發(fā)現(xiàn)方面,提出了基于關(guān)鍵詞和隱性語義標(biāo)引的敏感詞識別和敏感度評測方法。 本論文基于以上的工作,最終設(shè)計并實現(xiàn)了網(wǎng)絡(luò)輿情敏感話題發(fā)現(xiàn)平臺,在實驗室范圍內(nèi)測試,并經(jīng)校園網(wǎng)內(nèi)部試運行,結(jié)果證明此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論