2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩86頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、協(xié)同標注系統(tǒng)(folksonomy)是Web2.0網站中由相互關聯(lián)的用戶、資源和標簽組成的注釋結果的一個集合,其重要基礎是:一個用戶可以自定義多個用戶標簽來描述網絡資源。通常的社會化標簽系統(tǒng)中標簽是用戶標注的結果,也有一些網站提供抽取標簽的自動推薦功能(本文定義為機器生成標簽)。當前的標簽生成研究對其內容與社會化屬性的結合研究仍不夠深入。標簽的個性化和模糊化特征使得社會化標簽系統(tǒng)中存在大量無用、冗余以及語義不明確的標簽。同時,標簽在We

2、b文本的聚類方面的應用多為單語言Web文本聚類且只把標簽作為聚類的補充。
  針對以上問題,本文以多語言的社會化標簽聚類及可視化為研究目標,從社會化標簽提取、聚類與可視化以及社會化標簽在文本聚類中的應用等幾個方面進行了研究。具體研究內容包括如下三個方面:
  首先,在社會化標簽屬性的研究中,本文將標簽分為兩類,用戶標注標簽和機器抽取標簽,并分別對結合內容屬性與社會化屬性的兩類標簽的聚類結果進行分析與討論。實驗結果表明內容與用

3、戶特征的結合能夠在用戶分類的情況下能夠提高標簽聚類結果,滿足對用戶的個性化標簽聚類結果的需要。
  其次,在多語言標簽聚類與可視化研究中,本文采用更全面的標簽特征抽取方法,即通過內容與社會化屬性的結合來提高抽取標簽的質量,結合用戶標注標簽,優(yōu)化最終的標簽聚類效果,并對網絡資源進行多語言標簽映射,并實現(xiàn)其可視化。實驗結果表明對于平行語料的兩種多語言標簽聚類方法,單語言二次聚類結果優(yōu)于混合標簽的一次聚類結果。平行語料的多語言標簽聚類結

4、果優(yōu)于可比語料基于雙語詞典映射的多語言標簽聚類結果。
  最后,在社會化標簽的應用研究中,本文針對傳統(tǒng)文本聚類的不足,將社會化標簽引入到文本聚類中。比較基于文本內容、基于用戶標簽及不同的加權算法的結合,分析不同語言文本聚類結果的差異,實驗結果表明選用不同的特征抽取方法和不同的加權方法中的文本聚類結果表現(xiàn)不同。在Web文本聚類中,內容特征與社會化特征的結合能夠對文本聚類起到改善作用,應重視社會化特征在Web文本聚類中的作用和意義。另

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論