面向金融領(lǐng)域BBS的話題發(fā)現(xiàn)和熱度評價.pdf_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)的出現(xiàn)與發(fā)展,使信息資源從貧乏時代進入到極度豐富的時代。伴隨著互聯(lián)網(wǎng)的迅速發(fā)展,BBS早已成為人們發(fā)表言論,交流信息的重要場所。當今世界經(jīng)濟的飛速發(fā)展,人們開始熱衷于股票、債券、基金等金融領(lǐng)域的投資,如何能及時準確地獲得當前人們最關(guān)心,最熱門的金融話題是每一個網(wǎng)民都十分關(guān)注的。
  通過設(shè)計并實現(xiàn)面向金融領(lǐng)域BBS的熱點發(fā)現(xiàn)和熱度評價系統(tǒng)可以有效解決上述問題。本文在充分考慮了金融BBS的文本組織結(jié)構(gòu)和文本的預(yù)處理方法的基礎(chǔ)上

2、,主要研究了面向金融BBS熱點話題發(fā)現(xiàn)方法和熱度評價方法。
  本文的主要內(nèi)容有:
  (1)對BBS數(shù)據(jù)進行抽取以及進行相關(guān)預(yù)處理:通過研究傳統(tǒng)的信息抽取方法,結(jié)合金融BBS帖子頁面的結(jié)構(gòu)特性,提出了基于最大重復(fù)DOM樹的BBS數(shù)據(jù)抽取方法。實驗結(jié)果表明,該算法能夠有效地提取金融BBS帖子的有效信息。
  (2)提出一種針對金融BBS文本特性的特征選擇方法??紤]到金融BBS既有BBS文本的特征又有金融詞匯主題相關(guān)性的

3、特征,提出了BTF*IDF算法以滿足對金融BBS的特征選擇。實驗結(jié)果表明,相對于傳統(tǒng)的特征提取方法,本文的方法能夠更好的完成特征選擇的任務(wù)。
  (3)提出一種基于時間演化理論的增量聚類算法。與傳統(tǒng)的聚類算法相比,該算法在文本聚類的過程中結(jié)合了話題演化的生命周期。實驗結(jié)果表明,該算法能夠有效地優(yōu)化話題發(fā)現(xiàn)的結(jié)果集,提高話題發(fā)現(xiàn)的質(zhì)量。
  (4)采用基于用戶關(guān)注度和話題時效性的熱度評價算法。通過在熱度評分算法中融入了用戶關(guān)注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論