2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩101頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到人們生活中的各個角落,成為人們生活中不可缺少的一部分?;ヂ?lián)網(wǎng)的飛速發(fā)展帶來了各種各樣數(shù)量巨大的信息,這些信息正以爆炸式的速度增長,如何有效地獲取、保存和利用這些信息是現(xiàn)在大數(shù)據(jù)時代的重要課題。在互聯(lián)網(wǎng)海量信息中,用戶在各種社交網(wǎng)絡(luò)平臺中發(fā)布的信息增長尤為迅速,這些社交網(wǎng)絡(luò)中的信息文本較短、用戶語言較為隨意、文本語法性較差,我們將其統(tǒng)稱為“短文本”,具有代表性的短文本有微博、商品評論、BBS論壇發(fā)言等。

2、短文本的出現(xiàn)給傳統(tǒng)的Web信息抽取工作帶來了許多機遇和挑戰(zhàn)。由于社交網(wǎng)絡(luò)中的短文本信息量大、信息維度廣,使得一些在短文本中的信息抽取任務(wù)非常有價值,這些任務(wù)包括事件檢測和事件分析、情感分析、知識圖譜挖掘等。然而短文本的文本特性給在短文本中的信息抽取工作帶來了困難和挑戰(zhàn),如何有效地在短文本中進(jìn)行信息抽取也成為了一個研究熱點。
  本文針對短文本信息抽取中的幾個關(guān)鍵問題,即微博事件抽取、微博事件語義元素抽取和商品評論情感分析展開研究。

3、微博事件抽取旨在從微博數(shù)據(jù)中抽取出用戶所需要的事件。微博平臺龐大的用戶群體帶來了數(shù)據(jù)量巨大的微博文本,這些微博文本中包含著許許多多事件信息,這使得微博在對事件的報道上比傳統(tǒng)新聞媒體更具優(yōu)勢。如何有效地從微博中抽取出相關(guān)事件也成為了一項有意義的研究工作。對于抽取出的微博事件,如何為這些事件尋找一種完整且直觀的表達(dá)方式也是一個重要的課題。本文使用新聞學(xué)中事件的語義元素5W1H(When,Where,Who,What,Whom和How)對抽取

4、出的微博事件進(jìn)行表達(dá)。事件的5W1H語義元素對于完整地描述一個微博事件非常有幫助,如何在語言較為隨意的微博文本中抽取事件的語義元素也是一項有價值的工作。商品評論情感分析旨在于抽取用戶在商品評論中表現(xiàn)出的情感傾向性。在電子商務(wù)發(fā)展迅猛的今天,網(wǎng)上購物已經(jīng)成為許多人購物時的首選。通過對用戶商品評論的情感傾向性進(jìn)行有效挖掘,不僅能夠方便用戶做出購買決策,還能使商家更好地完善商品,提升銷量。
  本文針對以上幾個短文本信息抽取中的研究問題

5、提出了一系列解決方法,本文的主要貢獻(xiàn)可以總結(jié)為如下幾點:
  1.對于微博事件抽取問題,由于命名實體信息是一個事件的重要組成部分,對于不同類型的事件,事件文本中不同類型的命名實體分布也不相同,因此將命名實體信息加入到事件抽取的過程中,可以提升抽取的效果。本文將事件的類型定義為事件中不同類型命名實體的概率分布。通過提出一種基于機器學(xué)習(xí)的方法,自動抽取事件微博文本中的事件類型。通過文本聚類的方法抽取微博事件,在聚類的過程中,通過加入抽

6、取出的事件類型信息,提升了聚類的效果。
  2.針對已有的對微博事件的表達(dá)方式不能完整地描述一個事件的問題,本文使用事件語義元素5W1H對事件進(jìn)行表達(dá)。由于微博的文本特點,傳統(tǒng)在Web網(wǎng)頁上抽取事件語義元素的方法在微博文本中效果較差,因此本文提出了新的方法對微博事件語義元素進(jìn)行抽取。對于When和Where元素,本文提出了一種基于粒度的自粗向細(xì)的抽取方法,該方法考慮了不同粒度上的時間/地理信息,通過粒度上自粗向細(xì)的逐層抽取方法提升

7、了抽取效果。對于Who、What和Whom元素,本文提出了一種詞語聚類和鏈接的方法。該方法通過將不同句子成分中的詞語進(jìn)行聚類使得對同一實體的不同表達(dá)被聚類在相同的詞語簇中,再利用不同句子成分中詞語的共現(xiàn)關(guān)系將詞語簇進(jìn)行鏈接,得到事件語義元素。這種方法較為有效地解決了事件微博簇中對于同一實體存在不同表達(dá)方式的問題,因此提升了事件語義元素的抽取效果。
  3.對于商品評論情感分析問題,由于在一條評論文本中用戶對于商品的不同維度可能存在

8、不同的情感傾向性,傳統(tǒng)基于句子、篇章等的情感分析方法并不適用。為此本文提出了一個多維度商品評論情感分析的方法框架,旨在于抽取用戶對不同商品維度的情感傾向性。在該方法中,對于一個初始的商品評論長句,本文提出使用基于卷積神經(jīng)網(wǎng)絡(luò)的方法對句子進(jìn)行切分。經(jīng)過切分后的每個短句中只包含用戶對最多一個商品維度的評價。對于每個短句,本文使用文本和維度關(guān)鍵詞之間的相關(guān)性將其與一個商品維度建立映射關(guān)系,并最后在該商品維度下進(jìn)行情感分類。針對情感分析中相同的

9、情感詞在不同的商品維度下表現(xiàn)出的情感極性可能不同的問題,本文使用半自動的方法為每個商品維度構(gòu)建了維度情感詞典,通過使用維度情感詞典,情感分析的效果得到了提升。
  本文的研究較好地緩解了短文本用戶語言較為隨意、語法不規(guī)范等問題對傳統(tǒng)信息抽取工作帶來的影響。論文提出了微博事件類型抽取算法、基于事件類型的微博事件抽取方法、微博事件5W1H語義元素抽取算法、多維度商品評論情感分析方法等一系列新的設(shè)計,并在真實數(shù)據(jù)集上驗證了所有算法的有效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論