2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著計算機網絡在各個領域中的廣泛應用,產生了龐大的網絡信息,其中,以手機短信、QQ聊天記錄、博客評論、新聞評論等短文本形式存在的信息也得到了空前的膨脹,如何對這些以短文本形式存在海量知識進行有效的組織和管理,使用戶能方便準確的查找到所需信息,是文本自動知識獲取迫切需要解決的問題。
   由于短文本長度短、描述概念信號弱,使得用于長文本時效果比較好的分類方法,在作用于短文本時,分類效果不理想,為了解決上述問題,我們采用了一種利用額

2、外信息來輔助短文本分類的方法。
   對于詞語之間的語義關系的研究和學習,一直是信息處理和自然語言處理中不可缺少的一部分,其中,詞語間的上下位關系在語義關系中扮演著重要的角色,引入上下位關系這個額外信息來輔助短文本分類是目前的一個研究熱點,此前也有很多關于提取上下位關系的研究,盡管這些研究在獲取上下位詞對時有很大的效用,但如何提取具有上下位關系的詞對,仍然是一個富有挑戰(zhàn)性的任務。利用上下位關系對短文本的特征向量進行擴展,能夠在一

3、定程度上增強短文本的概念描述能力。本文是基于上下位關系的短文本分類研究,主要圍繞以下工作進行:
   (1)提出了一種基于概念內涵的上下位關系獲取方法。該方法將詞語在《知網》中的概念定義項作為其內涵,利用具有上下位關系的詞語在概念內涵上具有包含關系的特性來計算概念之間的上下位關系強度,繼而通過整合詞語對的多對概念對得到詞語對間的上下位關系強度,并設置閾值得到最終的上下位關系詞對,將得到的詞語對用來擴展短文本,實驗結果驗證了該方法

4、的有效性。
   (2)通過為短文本的特征向量增加新的特征詞語的方式來提高短文本的概念描述能力,盡管這樣對于短文本的分類效果有所改善,但還有需要進一步提高和改進的地方:在特征擴展時,我們只是簡單的將新特征擴展進短文本特征向量中,雖然這樣的擴展會給短文本的分類性能帶來提升,但這樣的擴展也給短文本分類帶來了噪音,影響其分類效果,鑒于此,我們采用了一種考慮特征擴展方式的短文本分類方法,這種方法是在為短文本的特征向量增加新的特征詞語時,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論