版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著中文微博平臺的快速發(fā)展,微博已經(jīng)融入并且開始影響人們的日常生活,微博上的很多觀點(diǎn)言論正在潛移默化地影響著人們的價值判斷。而人是言論傳播的主體,微博平臺的開放性使一個人在微博上可以對應(yīng)多個虛擬身份,轉(zhuǎn)世賬號就是一類在網(wǎng)絡(luò)輿論監(jiān)測過程中出現(xiàn)的一個用戶對應(yīng)多個賬號的情況,本文主要研究轉(zhuǎn)世賬號的研判問題。
轉(zhuǎn)世賬戶現(xiàn)象是在不同時間上同一微博平臺上存在的兩個或者多個賬號對應(yīng)同一個用戶的現(xiàn)象。本文在調(diào)研了微博用戶研究所用信息來源的基礎(chǔ)
2、上,篩選出賬戶名、博文時間和內(nèi)容三個具有高可信性的信息來源,作為研究的基礎(chǔ)數(shù)據(jù),接著提出了一種基于時序和相似性的轉(zhuǎn)世賬戶研判模型,論文主要包括以下四個研究貢獻(xiàn):
?。?)由于受記憶、知識和時間及習(xí)慣等原因限制,同一用戶命名自己的不同賬戶時傾向于選擇相似賬戶名。本文通過研究轉(zhuǎn)世賬戶不同賬戶名的命名規(guī)則及賬戶名間的高相似性,利用相似性設(shè)計并實(shí)現(xiàn)了待查賬戶候選賬戶集產(chǎn)生算法。該算法將賬戶名中包含待查賬戶名任一中文字符的賬戶選入候選集,
3、在最大程度上保留了相似賬號。
(2)針對轉(zhuǎn)世賬戶的特殊性,提出了一種博文時序樹算法。由于轉(zhuǎn)世賬戶的前世賬戶與現(xiàn)世賬戶的博文一般在時間維度上有一個嚴(yán)格的先后順序,即現(xiàn)世賬戶的博文不早于前世賬戶的博文發(fā)表時間,并且其第一條博文的時間不會滯后于前世賬戶發(fā)表最后一條博文太長時間。借助這種時序關(guān)系對博文進(jìn)行處理,最終形成一棵以待查賬戶為根,疑似前世賬戶為節(jié)點(diǎn)的時序樹,完成候選賬戶集的時序篩選驗(yàn)證。
?。?)研究文本相似度計算方法
4、,改進(jìn)了余弦相似度計算方法。本文針對兩個應(yīng)用改進(jìn)了余弦相似度算法。首先對于賬戶名這種超短文本,其相似性不能僅依靠判斷所使用的字相同就認(rèn)為其相似,故本文針對余弦相似度算法不能區(qū)別文本結(jié)構(gòu)上的不同,通過加權(quán)最少編輯距離算法進(jìn)行改進(jìn),取得了更好的研判效果;另外是對博文相似度,本文認(rèn)為對于命名實(shí)體相同的微博文本,其談?wù)摰脑掝}是相似的,因而本文將文本向量空間分為命名實(shí)體空間和其他特征項(xiàng)空間,并且加大了命名實(shí)體在特征向量里的權(quán)重,該算法可以推廣至基
5、于話題的相似性計算。
?。?)基于以上算法,提出了一種基于時序和相似性的轉(zhuǎn)世賬戶研判模型,并在新浪數(shù)據(jù)上進(jìn)行了有效性驗(yàn)證。模型主要分為兩大模塊:候選賬戶集產(chǎn)生模塊(Identity Search)和篩選驗(yàn)證模塊(Identity Matching)。前者使用候選賬戶集產(chǎn)生算法生成待查賬戶的候選賬戶集,盡可能避免漏掉可能的前世賬號;后者進(jìn)行時序和相似性的篩選驗(yàn)證,盡可能甄別刪除不是前世賬戶的賬戶。
本文在對模型設(shè)計的基礎(chǔ)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博輿情生產(chǎn)、研判與處置研究
- 基于微博的社會輿情研判與預(yù)警體系構(gòu)建
- 基于話題模型的教育領(lǐng)域微博賬號萃取.pdf
- 微博公眾賬號對輿論的引導(dǎo)性研究
- 微博公眾賬號對輿論的引導(dǎo)性研究
- 微博檢索技術(shù)研究與實(shí)現(xiàn).pdf
- 微信公眾賬號與個人賬號推廣
- 微博輿情挖掘技術(shù)的研究與應(yīng)用.pdf
- 流聚類技術(shù)在微博中的應(yīng)用.pdf
- 微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn).pdf
- 認(rèn)證類與草根類健康微博賬號信息傳播對比研究.pdf
- 微博用戶興趣識別技術(shù)的研究與應(yīng)用.pdf
- 微博在微課程中的應(yīng)用探討
- 微博僵尸粉識別技術(shù)研究與實(shí)現(xiàn).pdf
- 微博機(jī)器人檢測技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于Android手機(jī)的新浪微博應(yīng)用的研究與實(shí)現(xiàn).pdf
- 基于MapReduce的微博水軍識別技術(shù)研究與實(shí)現(xiàn).pdf
- 微博的大規(guī)模社區(qū)發(fā)現(xiàn)技術(shù)研究與實(shí)現(xiàn).pdf
- 話題區(qū)分的微博情感分析技術(shù)研究與實(shí)現(xiàn).pdf
- 面向新浪微博的水軍識別技術(shù)的研究與實(shí)現(xiàn).pdf
評論
0/150
提交評論