版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展,在全球各地每時(shí)每刻都在產(chǎn)生大量的推特?cái)?shù)據(jù)信息。如何在這大量數(shù)據(jù)中去篩選滿足用戶需求的信息變得尤為重要,查詢擴(kuò)展方法在推文檢索中廣泛應(yīng)用,可以有效的解決這一問題。
查詢擴(kuò)展主要包含兩個(gè)部分:一是篩選與原始查詢詞相關(guān)的推文作為語料庫;二是篩選語料庫中與原始查詢最相關(guān)的詞語作為待擴(kuò)展詞。傳統(tǒng)查詢擴(kuò)展方法主要使用BM25算法,VSM算法以及TF-IDF算法等對原始查詢和推文進(jìn)行相關(guān)性比較,篩選出滿足用戶需求的推文
2、作為語料庫。這種方法存在兩個(gè)不足:一是含有較少查詢詞的推文被漏選,二是含有較多查詢詞的不相關(guān)推文被錯(cuò)誤的篩選。針對此問題本文在以下幾個(gè)方面進(jìn)行研究和創(chuàng)新:
(1)提出基于推文聚類的查詢擴(kuò)展方法,并對其進(jìn)行設(shè)計(jì)和完成。該方法對篩選推文作為語料庫這一過程進(jìn)行改進(jìn),并將傳統(tǒng)的逐條推文與原始查詢詞進(jìn)行相關(guān)性比較的推文篩選方法進(jìn)行優(yōu)化。該方法先對推文進(jìn)行聚類,根據(jù)與原始查詢詞的相關(guān)性對聚好類的推文進(jìn)行篩選,得到的推文集合包含了相同語義的
3、所有推文。再比較推文類與原始查詢的相關(guān)性,篩選出最滿足用戶需求的推文類。這一方法很好的解決了含有較少查詢詞的相關(guān)推文被漏選的問題。
該方法對比BM25算法對兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了11.4%和12.0%,比VSM算法分別提升了14.9%和15.3%,比TF-IDF算法分別提升了15.8%和13.7%。
(2)提出基于主題劃分的查詢擴(kuò)展方法。通過對不相關(guān)推文中含有較多查詢詞而被篩選這一主
4、題偏移問題進(jìn)行改進(jìn),使得含有查詢詞的不相關(guān)推文被有效的過濾。該方法將推文進(jìn)行主題劃分,篩選出滿足用戶查詢的主題下的推文集合作為語料庫,有效的去除了含有查詢詞但并不屬于該主題的推文。
該方法對比BM25算法對兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了13.2%和13.9%,比VSM算法分別提升了16.7%和17.3%,比TF-IDF算法分別提升了17.7%和15.6%。
(3)經(jīng)過分別對主題劃分方法和推文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于用戶標(biāo)注信息的查詢擴(kuò)展方法研究.pdf
- 推特中的文本污染信息過濾方法研究.pdf
- 基于語義查詢擴(kuò)展的信息檢索研究.pdf
- 信息檢索中的查詢擴(kuò)展算法研究.pdf
- 金融信息精確檢索中本體構(gòu)建與查詢擴(kuò)展方法研究.pdf
- 信息檢索中的查詢擴(kuò)展技術(shù)研究.pdf
- 基于緩存策略的查詢擴(kuò)展方法研究.pdf
- 基于查詢?nèi)罩镜膭?dòng)態(tài)查詢擴(kuò)展研究.pdf
- 跨語言信息檢索的查詢消歧及查詢擴(kuò)展技術(shù)研究.pdf
- 信息檢索中的查詢擴(kuò)展與檢索模型研究.pdf
- 搜索引擎中的查詢擴(kuò)展方法研究.pdf
- 概率數(shù)據(jù)庫可擴(kuò)展查詢技術(shù).pdf
- 數(shù)據(jù)庫中關(guān)鍵詞的查詢擴(kuò)展研究.pdf
- 推特中的特定事件檢測方法研究.pdf
- 信息檢索中的查詢擴(kuò)展及相關(guān)技術(shù)研究.pdf
- 基于互信息的語義查詢擴(kuò)展技術(shù)研究.pdf
- 基于自動(dòng)查詢擴(kuò)展的專利文檔檢索方法.pdf
- 支持OLAP的推特用戶興趣挖掘方法研究.pdf
- Skyline擴(kuò)展查詢研究.pdf
- 基于領(lǐng)域本體的用戶查詢詞擴(kuò)展方法的研究.pdf
評(píng)論
0/150
提交評(píng)論