基于時序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩165頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)的誕生及發(fā)展,大大促進(jìn)了信息的傳播。作為信息傳播的重要手段,網(wǎng)絡(luò)新聞在互聯(lián)網(wǎng)上扮演著非常重要的角色,已經(jīng)成為網(wǎng)民最常使用的網(wǎng)絡(luò)應(yīng)用之一。網(wǎng)絡(luò)新聞是網(wǎng)絡(luò)上發(fā)布的“新近發(fā)生的事實的報道”,它較傳統(tǒng)新聞傳播媒介在時效性、容量、豐富性、易交互性、易檢索性,以及多媒體化的呈現(xiàn)方式等方面都有巨大的優(yōu)勢,給人們的生活帶來了巨大的便利和幫助。當(dāng)然,海量的網(wǎng)絡(luò)新聞也給人們帶來了信息過載問題。
   為了更好地滿足各類網(wǎng)絡(luò)用戶的需求,提升網(wǎng)絡(luò)

2、用戶的新聞獲取體驗,研究網(wǎng)絡(luò)新聞內(nèi)容的自動理解及推薦技術(shù)具有重要的意義。所謂新聞內(nèi)容理解,是指從大量的新聞數(shù)據(jù)中抽取出事先未知的、可理解的、最終可用的知識,同時利用這些知識更好地組織新聞以幫助用戶更好地獲取這些信息。而新聞推薦技術(shù)則通過分析網(wǎng)絡(luò)用戶的各類新聞閱讀行為,獲得用戶的喜好信息,結(jié)合對新聞內(nèi)容的理解,向用戶推薦其可能感興趣的新聞。上述問題處理的大多是時序文本,涉及到時序文本挖掘技術(shù)的諸多方面。本文基于時序文本挖掘的相關(guān)技術(shù),研究

3、新聞內(nèi)容理解和推薦涉及的多個問題,并提出了解決方案,具體的工作如下:
   本文首先針對時序新聞數(shù)據(jù)集的事件檢測問題,提出了一種基于突發(fā)特征分析的新聞突發(fā)事件檢測方法。引入特征軌跡將構(gòu)成時序新聞數(shù)據(jù)集的特征表示為時間序列;提出了一種特征軌跡小波域表示方法,并引入多尺度突發(fā)分析算法檢測突發(fā)特征及突發(fā)跨度;提出了一種基于近鄰傳播聚類算法的突發(fā)事件檢測算法,將特征突發(fā)模式的相似性、特征所在新聞的重合度、以及特征能量(表示特征的突發(fā)強(qiáng)度

4、)作為近鄰傳播算法的輸入,將突發(fā)特征聚類以構(gòu)成事件,并引入事件能量衡量事件的突發(fā)水平。
   針對時序新聞的在線突發(fā)事件檢測問題,提出了一種在線的新聞突發(fā)事件檢測及其進(jìn)化分析方法。引入一種多尺度滑動窗口實時監(jiān)控特征軌跡,并利用在線多尺度突發(fā)特征檢測方法檢測出當(dāng)前時間窗口中具有不同突發(fā)跨度的突發(fā)特征;引入一個指數(shù)型的衰減因子衰減特征軌跡,并基于此計算突發(fā)特征之間的關(guān)聯(lián)度;同樣利用近鄰傳播聚類算法將突發(fā)特征聚類以檢測出突發(fā)事件,利用

5、能量衡量事件的突發(fā)水平;最后,提出了一種基于余弦相似度的信息檢索方法發(fā)現(xiàn)事件在時間軸上的進(jìn)化過程。
   針對時序新聞突發(fā)事件檢測算法在實時性、準(zhǔn)確率等方面存在的問題,進(jìn)一步提出了一種基于假設(shè)檢驗的在線突發(fā)事件檢測方法。提出了一種基于隨機(jī)過程的特征數(shù)據(jù)流表示方法,并運(yùn)用分布擬合檢驗及左邊檢驗檢測突發(fā)特征;分析突發(fā)特征的相關(guān)性,引入進(jìn)化譜聚類算法將相關(guān)性較高的突發(fā)特征聚類以構(gòu)成事件。算法具備更高的實時性,并能更準(zhǔn)確地檢測某些突發(fā)特

6、征及事件。
   為了幫助人們更好地了解時序新聞,提出了一種時序新聞主題分解與摘要方法。在時序新聞的關(guān)鍵詞-句子關(guān)聯(lián)矩陣上應(yīng)用非負(fù)矩陣分解(Non-negativeMatrix Factorization,即NMF)獲得子主題信息;通過分析非負(fù)矩陣分解獲得的編碼向量(encoding vector),發(fā)現(xiàn)屬于每個子主題的事件,并為這些子主題及其包含的事件產(chǎn)生摘要;基于編碼矩陣對句子進(jìn)行排序,選擇屬于每個子主題的排名最高的若干句子

7、作為該時序新聞的摘要。
   針對視障及老年人群的網(wǎng)絡(luò)新聞獲取需求,提出并實現(xiàn)了一個個性化的有聲網(wǎng)絡(luò)新聞推薦及綜合挖掘平臺。提出了一種個性化的有聲網(wǎng)絡(luò)新聞推薦的體系架構(gòu),支持各類終端通過HTTP協(xié)議獲取個性化的有聲新聞。該架構(gòu)支持兩個層面的個性化,在提供新聞頻道自適應(yīng)導(dǎo)航的同時,能夠根據(jù)用戶對于多類主題的興趣自動推送相關(guān)的新聞。最后設(shè)計并實現(xiàn)了該系統(tǒng)(簡稱網(wǎng)絡(luò)搜音機(jī)服務(wù)系統(tǒng))。除實現(xiàn)上述功能外,基于前述新聞內(nèi)容理解的工作,系統(tǒng)還

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論