協(xié)同過濾中數(shù)據(jù)稀疏問題與推薦實(shí)時性的研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)爆炸的現(xiàn)今使得推薦系統(tǒng)技術(shù)變得越來越熱門,越來越重要,幾乎所有的電子商務(wù)網(wǎng)站以及部分門戶網(wǎng)站,甚至是搜索引擎都有推薦系統(tǒng)相關(guān)技術(shù)的身影。總結(jié)其中的原因,一是在唾手可得的海量信息里,人們所期望獲得的卻是其中極小的一部分;二是人們期望獲得的信息里有一些潛在的偏好,利用這些偏好可以做更多的事情。推薦系統(tǒng)的發(fā)展非常迅速,它分為協(xié)同過濾,基于知識的推薦,混合推薦等等,而各種類別的推薦算法下又有很多成熟的技術(shù)。協(xié)同過濾一直是這其中的研究最多的技

2、術(shù),同時也是在電子商務(wù)有著廣泛應(yīng)用的技術(shù)之一。典型的協(xié)同過濾,通過維護(hù)一個評分者—物品評分矩陣,計(jì)算相似度確定近鄰來產(chǎn)生推薦。
  不幸的是,這種算法的性能隨著用戶和商品的增加會產(chǎn)生很多問題:高維度,高稀疏度。此二者對于該技術(shù)在電子商務(wù)網(wǎng)站的應(yīng)用產(chǎn)生巨大挑戰(zhàn)。本文著眼于此,提出或改進(jìn)了若干方法,以解決數(shù)據(jù)稀疏問題和推薦實(shí)時性。
  對于數(shù)據(jù)稀疏問題,主要對外部信息做適當(dāng)提取,計(jì)算其Jaccard相似度產(chǎn)生預(yù)測值,并將預(yù)測值有

3、節(jié)制地填充至測試集,以此來提高傳統(tǒng)推薦技術(shù)的準(zhǔn)確性。具體的,評分外的信息,如:用戶的年齡、職業(yè),物品的類別等,通過Jaccard相似度做初步調(diào)整,再與經(jīng)典協(xié)同過濾得到的最近鄰相似性進(jìn)行加權(quán),通過多組具體的實(shí)驗(yàn),確定了較為理想的權(quán)重系數(shù)。在這樣權(quán)重下,我們得到的結(jié)果相對基準(zhǔn)實(shí)驗(yàn)有了一些提高。
  對于實(shí)時性的解決,我們引入聚類中的簇代表點(diǎn)技術(shù)(CURE,Clustering Using Representatives),主要是將搜尋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論