版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、文本作為一種人類信息交流的基本方式,在非結(jié)構(gòu)化數(shù)據(jù)中占有極其重要的地位。與其他形式的數(shù)據(jù)相比,文本數(shù)據(jù)通常價值較高,因而對文本數(shù)據(jù)自動分析和挖掘方法的研究一直是計算機領(lǐng)域的一個熱門話題。目前互聯(lián)網(wǎng)上的文本數(shù)據(jù)增長十分迅速,且是每時每刻持續(xù)不斷生成的,因此可將其看作是一條條連續(xù)的文本流。與傳統(tǒng)文本數(shù)據(jù)相比,流式文本數(shù)據(jù)具有一些新的特點:1)文本流中的很多數(shù)據(jù)是低質(zhì)量的,較難提取有效語義信息;2)文本流中的模式是動態(tài)變化的,對挖掘技術(shù)提出了
2、準(zhǔn)確捕捉這種變化的要求。以上這些特點對現(xiàn)有文本數(shù)據(jù)挖掘技術(shù)提出了新的挑戰(zhàn)。
目前流式文本數(shù)據(jù)挖掘技術(shù)尚未十分完善,急需提出針對以上挑戰(zhàn)的相關(guān)算法。層次結(jié)構(gòu)作為常見的數(shù)據(jù)組織方式,不僅能夠更加精確的反映數(shù)據(jù)間的固有關(guān)系,并且是實現(xiàn)自適應(yīng)方法的一種重要途徑,而基于自適應(yīng)方法可實現(xiàn)自動匹配流式數(shù)據(jù)中不斷變化的模式。本文將層次結(jié)構(gòu)應(yīng)用到流式文本數(shù)據(jù)挖掘中,從概念層次構(gòu)建、稀有類別檢測和在線主題檢測等三方面入手,提出了三種方法以期提高流
3、式文本數(shù)據(jù)挖掘的性能。最后基于上述方法,本文提出了一種針對流式文本數(shù)據(jù)挖掘的半監(jiān)督在線層次主題模型。本文具體貢獻(xiàn)如下:
1)針對現(xiàn)有概念層次構(gòu)建方法在微博、用戶評論等不規(guī)范短文本中語義關(guān)系提取精度較低的問題,提出了一種基于復(fù)合語義距離的多路概念層次構(gòu)建方法。該方法中的復(fù)合語義距離結(jié)合了語義字典距離和上下文距離的優(yōu)點,并且保證了方法的適用范圍和所獲取的語義關(guān)系的精度。同時,本文還提出一種改進的多路凝聚聚類算法用以構(gòu)建概念層次。相
4、對傳統(tǒng)凝聚聚類而言,多路凝聚聚類能保持概念對間的相對遠(yuǎn)近關(guān)系。此外,本文還提出一種改進的概念層次相似度標(biāo)準(zhǔn),該標(biāo)準(zhǔn)解決了其原始形式中可能出現(xiàn)的多次匹配問題。實驗結(jié)果表明,該方法生成的概念層次與真實概念層次的相似度為所有對比方法中最高。
2)針對從文本流的概念層次或主題層次中發(fā)現(xiàn)新概念或主題的問題,提出了一種基于層次密度聚類的稀有類別檢測方法。在社交網(wǎng)絡(luò)或新聞流中,發(fā)現(xiàn)新穎的文檔或者新興主題是很有價值的,異常檢測在新穎數(shù)據(jù)檢測中
5、可發(fā)揮關(guān)鍵作用。為了改進現(xiàn)有檢測方法,本文首先提出了一種基于相對距離約束和核函數(shù)的半監(jiān)督密度聚類算法(RKMS)。與其原始形式相比,RKMS可擴展性更強,且更加適合層次聚類這種應(yīng)用場景。然后本文基于RKMS提出了一種基于層次結(jié)構(gòu)的稀有類別檢測方法。與現(xiàn)有同類方法相比,該方法的優(yōu)點是無需預(yù)先指定類別的數(shù)目,且可通過結(jié)合主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)實現(xiàn)模型的逐步優(yōu)化。實驗結(jié)果表明,該稀有類別檢測方法在使用線性映射和非線性映射的情況下均比其他方法表現(xiàn)
6、更好。
3)針對從持續(xù)輸入的文本流中檢測和跟蹤主題的問題,提出了一種在線的層次主題模型(HONMF)?,F(xiàn)有在線主題模型大多以扁平方式組織已發(fā)現(xiàn)的主題,但將每個主題視作互相獨立的個體忽略了主題間的潛在關(guān)系,因而限制了這些主題模型的表達(dá)能力。針對該問題,本文首先對在線字典學(xué)習(xí)方法進行擴展并提出一種層次的在線稀疏矩陣分解方法,其可生成以層次形式組織的主題。同時,本文借鑒均值漂移(MeanShift)聚類的思想提出一種基于主題帶寬(T
7、opic Bandwidth)的主題層次結(jié)構(gòu)控制機制,其可自適應(yīng)的決定主題節(jié)點的數(shù)目和主題層次的深度。此外,本文還提出在已有主題層次中檢測新興主題和消亡主題的標(biāo)準(zhǔn),并基于這些標(biāo)準(zhǔn)實現(xiàn)主題層次結(jié)構(gòu)的動態(tài)演化。實驗結(jié)果表明,HONMF能夠在更短的運行時間內(nèi)發(fā)現(xiàn)更高質(zhì)量的主題,并且可跟蹤主題結(jié)構(gòu)的變化。
4)為了驗證本文研究路線的整體效果和進一步提升HONMF的性能,提出了一種基于語義關(guān)系的半監(jiān)督層次在線主題檢測框架(SSHONMF
8、),其將本文前述研究工作整合融合到一套流程中。該流程首先根據(jù)語義詞典和訓(xùn)練文檔生成針對特定文本挖掘任務(wù)的概念層次,并基于其中的語義關(guān)系對原始文檔矩陣進行調(diào)整。接著其會使用HONMF檢測文本流中的主題層次,同時基于本文稀有類別檢測方法中的選擇指標(biāo)從主題層次中選擇出線索文檔。最后,其將根據(jù)線索文檔學(xué)習(xí)出新的相似度度量并用于后續(xù)的HONMF過程。實驗結(jié)果表明,通過結(jié)合前述方法,SSHONMF的性能比HONMF有所提升,證明了本文研究路線的合理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于WWW的文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的文本數(shù)據(jù)挖掘的研究.pdf
- Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘的研究.pdf
- 基于神經(jīng)網(wǎng)的文本數(shù)據(jù)庫挖掘.pdf
- 基于潛在語義結(jié)構(gòu)的文本層次分類.pdf
- 基于海量文本數(shù)據(jù)的實體關(guān)系抽取及挖掘.pdf
- 基于語義的文本數(shù)字水印研究.pdf
- 基于文本數(shù)據(jù)挖掘技術(shù)的用戶需求分析研究.pdf
- 基于海量文本數(shù)據(jù)的實體關(guān)系抽取及挖掘(1)
- 基于文本數(shù)據(jù)挖掘的當(dāng)代針灸臨床流派研究.pdf
- 基于XBRL層次結(jié)構(gòu)的數(shù)據(jù)挖掘研究.pdf
- 基于文本數(shù)據(jù)挖掘的微博情感分析與監(jiān)控系統(tǒng).pdf
- 時態(tài)文本數(shù)據(jù)的周期性挖掘研究.pdf
- 文本數(shù)據(jù)挖掘中基于云模型的特征選擇方法研究.pdf
- 基于主題模型的文本語義挖掘.pdf
- 基于語義分析的文本挖掘研究.pdf
- 基于主題模型的文本語義挖掘
- Web數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)新聞文本數(shù)據(jù)中的應(yīng)用.pdf
評論
0/150
提交評論