2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在大數(shù)據(jù)時代,作為一類新穎的社交網(wǎng)絡平臺,微博已成為民眾分享、關注及獲取實時信息的重要媒介。微博的實時性及其便捷、病毒式的信息傳播方式促使其成為報道突發(fā)事件的前沿陣地。然而,微博信息的海量性及繁雜性導致用戶無法輕易獲取所關注的熱點突發(fā)事件,出現(xiàn)信息過載現(xiàn)象;因此,如何從繁雜多變的微博數(shù)據(jù)中檢測突發(fā)事件具有重要的應用價值。再者,微博數(shù)據(jù)中蘊含大量的公眾對于突發(fā)事件的評論信息,可從中獲取社會輿情的指向,對社會穩(wěn)定和輿情監(jiān)測有重要的意義。綜上

2、,本文將突發(fā)事件檢測及其情感分析的研究工作分為突發(fā)事件檢測、微博文本的主客觀分類以及微博數(shù)據(jù)的情感分析三部分。
  第一,微博突發(fā)事件檢測。提出質點平拋運動模型(Particle Horizontal CastMovement based Model, PHCM),引入物理運動學原理解決突發(fā)事件檢測問題。微博流中潛在的突發(fā)詞的詞頻通常隨時間變化,且描述同一突發(fā)事件的突發(fā)詞趨向于共同出現(xiàn),具有“形影不離”的特點??紤]突發(fā)詞詞頻的變化

3、一致性,同步改變不同突發(fā)詞詞頻序列的時序信息,其變化依然呈現(xiàn)相同的規(guī)律。為了便于計算,將突發(fā)詞詞頻序列按詞頻遞增排序,可將突發(fā)詞質點的詞頻變化視為一個類平拋運動,運動軌跡越相似的突發(fā)詞,其描述同一突發(fā)事件的概率就越大。用詞激發(fā)力量化詞與詞之間的關聯(lián)特征,抽取突發(fā)詞對。最后,運用凝聚式層次聚類算法對突發(fā)詞集進行聚類,從聚類結果中篩選出意義比較完整的突發(fā)詞類簇來描述突發(fā)事件。實驗表明質點平拋運動模型達到了較好的突發(fā)事件檢測效果。
  

4、第二,主客觀文本分類。提出一種融合語義、語法及符號特征的基于樸素貝葉斯的主客觀文本分類方法??紤]微博文本表達的用語特點以及特征稀疏性,將微博文本的主客觀特征分為語義、語法以及符號三類特征。構建語言表達的典型主觀詞詞典和客觀詞詞典,得到微博文本的語義特征;設計微博文本的二元詞性組合抽取方法得到微博文本的語法特征,利用標點符號的情感信息得到符號特征;最后利用樸素貝葉斯分類方法融合三類特征對微博文本進行主客觀分類。實驗表明融合多特征的主客觀文

5、本分類方法達到了較好的主客觀分類效果。
  第三,微博情感分析。針對微博情感分析問題,提出了兩個微博情感分析模型:
  (1)考慮微博文本中情感詞之間的關系,提出了面向微博情感分析的庫侖模型(Coulomb Model, CLM);融合基礎情感詞、網(wǎng)絡情感詞、微博表情符號和網(wǎng)絡表情符號構建極性情感詞典,以此為依據(jù)提取微博語句中的間異情感詞串。通過計算間異情感詞串中情感詞與情感詞的情感作用力,求其相應情感貢獻力大小,取情感貢獻

6、力最大的情感詞的情感極性作為該條微博的情感極性。利用CLM對微博語料進行情感分析,平均正確率達到83.86%,實驗結果表明采用CLM對微博文本進行情感分析,能取得較好的分析效果。
  (2)考慮人類對文本情感的認知過程,借鑒光的折射思想,提出一種對微博文本進行情感分析的情感折射模型(Sentiment Refraction Model,SRM)。該模型主要由情感詞介質、中性光線、情感光線以及情感折射算法四部分組成。將不包含情感含義

7、的文本作為中性光線,以初始動態(tài)入射角射入具有情感折射率的情感詞介質,并經過連續(xù)多個情感詞介質的折射,聚集所有情感能量后,以一定的角度射出;通過判斷最終出射角與初始動態(tài)入射角差值的正負來判定文本的情感極性。實驗結果表明運用SRM對微博文本進行情感分析,可以取得較好的分析效果。
  最后,將上述方法結合起來,實現(xiàn)中文微博的突發(fā)事件檢測和情感分析系統(tǒng)。利用質點平拋運動模型進行突發(fā)事件檢測;從微博數(shù)據(jù)中抽取突發(fā)事件并獲取與事件相關的文本,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論