版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、維基百科是一種基于Wiki技術(shù)的,用不同語(yǔ)言寫成的網(wǎng)絡(luò)百科全書。隨著Web2.0技術(shù)的快速發(fā)展,維基百科所收錄的文章數(shù)量和參與編輯的作者數(shù)量日益增多。事實(shí)證明其中大部分的信息都是可信的,為廣大互聯(lián)網(wǎng)用戶提供了方便的內(nèi)容服務(wù),并作為科研和工業(yè)研發(fā)中的知識(shí)庫(kù)所廣泛使用。然而由快速發(fā)展而引起的信息和數(shù)據(jù)膨脹正在引起業(yè)界的重視,同時(shí),維基百科的數(shù)據(jù)量也呈現(xiàn)著爆發(fā)式的增長(zhǎng)。在這種情況下如何保證其提供內(nèi)容的質(zhì)量、準(zhǔn)確性和可信度將成為一個(gè)亟待解決的問(wèn)
2、題。本文從這個(gè)角度出發(fā),對(duì)維基百科中爭(zhēng)議性的條目和非正常編輯行為進(jìn)行了挖掘,給出了有效的解決方案。
在爭(zhēng)議性條目挖掘的方面,維基百科的一些文章的用戶對(duì)同一條目可能持有不同的見(jiàn)解,從而產(chǎn)生對(duì)該條目意見(jiàn)上的分歧。發(fā)現(xiàn)此類爭(zhēng)議性并將其解決無(wú)疑將保證維基百科的內(nèi)容質(zhì)量,避免因任何用戶的偏激行為,促使信息的不準(zhǔn)確。我們選取了維基百科的編輯歷史作為研究對(duì)象,針對(duì)編輯歷史中所提供的信息,提取與爭(zhēng)議度有關(guān)的元數(shù)據(jù)。這種形式相較于傳統(tǒng)的針對(duì)文本
3、自身的挖掘形式更具效率和可操作性。在對(duì)爭(zhēng)議度進(jìn)行評(píng)分時(shí),除了從文章自身角度分析之外,我們引入與用戶角色結(jié)合的方式計(jì)算文章的爭(zhēng)議度得分。并給出對(duì)應(yīng)的排序模型來(lái)研究這類用戶的有效性。在爬取得到的維基百科數(shù)據(jù)集上對(duì)本文的方法進(jìn)行了實(shí)驗(yàn),結(jié)果與其他基準(zhǔn)模型相比有所提升,從而驗(yàn)證了基于用戶特性的排序模型的有效性。
在惡意行為發(fā)掘的方面,最初的人工發(fā)現(xiàn)模式有著效率低,耗費(fèi)資源等缺點(diǎn),為了提高維基百科的內(nèi)容質(zhì)量,保證用戶的體驗(yàn),基于機(jī)器學(xué)習(xí)
4、的反惡意修改方法開(kāi)始被應(yīng)用于這個(gè)領(lǐng)域。然而,這其中的大部分方法均從引入更多類型的特征出發(fā),不斷挖掘的新特征使得特征集合不斷膨脹,從而增加了運(yùn)算的復(fù)雜度降低了效率。因此,如何在最大程度上利用現(xiàn)有的特征,并充分的挖掘其可用性和有效性就是本文要解決的問(wèn)題。在本文中,我們引入了特征變換技術(shù)來(lái)分析現(xiàn)有的特征,并提出了一種基于特征變換來(lái)整合已有特征從而實(shí)現(xiàn)惡意行為挖掘的方法。在公開(kāi)數(shù)據(jù)集PAN-WVC-10上的實(shí)驗(yàn)結(jié)果證明了本文所提出的方法的有效性
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 水楊酸維基百科
- 維基百科不自由
- 中文維基百科類別推薦的研究.pdf
- 基于維基百科的語(yǔ)義比較.pdf
- 維基百科上的語(yǔ)義搜索.pdf
- 基于中文維基百科的文本擴(kuò)充.pdf
- 關(guān)于維基百科中的實(shí)體類別推斷方法的研究.pdf
- 中文網(wǎng)絡(luò)百科全書的知識(shí)傳播研究——以維基百科與互動(dòng)百科為例.pdf
- 基于維基百科的搜索結(jié)果挖掘.pdf
- 基于維基百科的Web網(wǎng)頁(yè)數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng).pdf
- 基于維基百科的語(yǔ)義相關(guān)度計(jì)算研究.pdf
- 基于維基百科的人物關(guān)系抽取研究.pdf
- 基于維基百科的知識(shí)抽取和重用.pdf
- 復(fù)旦碩士創(chuàng)建“有毒食品維基百科”
- 維基百科下協(xié)同式語(yǔ)義摘要獲取的研究.pdf
- 基于維基百科的垂直搜索查詢擴(kuò)展問(wèn)題研究.pdf
- 基于中文維基百科的信息檢索技術(shù)研究.pdf
- 維基百科用戶協(xié)同編輯網(wǎng)絡(luò)局部結(jié)構(gòu)研究.pdf
- 維基百科的網(wǎng)絡(luò)結(jié)構(gòu)及可信分析.pdf
- 基于中文維基百科的全文語(yǔ)義標(biāo)注系統(tǒng).pdf
評(píng)論
0/150
提交評(píng)論