個性化信息推薦中若干關鍵問題與技術研究.pdf_第1頁
已閱讀1頁,還剩161頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、互聯(lián)網(wǎng)技術的飛速發(fā)展與信息網(wǎng)絡化趨勢的蔓延使得互聯(lián)網(wǎng)上信息的數(shù)量快速膨脹,人們面臨著信息過載帶來的信息獲取方面的困難。如何幫助互聯(lián)網(wǎng)用戶更加有效地獲取自己想要的信息,成為信息科學、計算機科學與網(wǎng)絡科學等交叉領域的研究熱點。得益于眾多研究人員的不懈努力,當前已經(jīng)有了幾種可以比較高效地獲取感興趣的信息的方式,最主要的是信息檢索技術和信息過濾技術,前者以各種搜索引擎為典型代表,通過與用戶的交互獲取用戶對目標信息的描述,通過描述關鍵詞在網(wǎng)絡中進

2、行查找;后者以信息推薦為主要方法,通過收集用戶的行為數(shù)據(jù)和其他屬性信息,分析用戶的潛在興趣,為用戶篩選可能感興趣的信息。搜索技術需要用戶提供盡可能明確的關鍵詞來描述自己的需求,并且有限的關鍵詞無法進一步區(qū)分具有不同習慣的用戶,得到的結(jié)果都是相同的;而推薦技術使用用戶的有關信息以及其過往行為所代表的興趣分析得到用戶的偏好與傾向,并不以用戶需求的自我描述為前提,所以用戶可以以較少的付出得到更精準的信息。因此,對于沒有明確需求的情況,推薦技術

3、可以很好地滿足用戶的需求。
  推薦技術已經(jīng)發(fā)展了近二十年,在很多領域已經(jīng)取得了較為成功的應用,在理論研究方面,推薦技術得到了大量研究人員的關注,對經(jīng)典推薦方法——比如協(xié)同過濾方法——的研究熱度不減,還有很多其他的新方法——比如基于二分網(wǎng)絡的方法——被不斷提出,進一步豐富了推薦技術的相關研究。隨著研究的不斷深入以及應用環(huán)境的持續(xù)變化,推薦技術面臨著不少問題與挑戰(zhàn),這其中最主要的就是數(shù)據(jù)稀疏性問題與大規(guī)模數(shù)據(jù)處理問題。數(shù)據(jù)稀疏性問題

4、指的是基于協(xié)同過濾的推薦中用戶與項目數(shù)量規(guī)模較大,但是用戶對項目的評價數(shù)據(jù)相對較少,導致整個用戶-項目矩陣中的評分數(shù)據(jù)十分稀疏,給推薦方法的計算帶來準確性方面的影響。大規(guī)模數(shù)據(jù)處理問題是指隨著實際應用中推薦技術要處理的數(shù)據(jù)量的不斷增大,推薦算法的實時性壓力越來越大,這就要求設計更加高效的方法或者提出其他提高算法執(zhí)行效率的方法,提升推薦算法對數(shù)據(jù)的處理能力與處理速度。
  針對推薦技術面臨的以上主要挑戰(zhàn),本文將對下面幾個問題展開研究

5、。
  第一,基于協(xié)同過濾方法的評分預測中數(shù)據(jù)稀疏性問題研究。評分預測是個性化信息推薦的一個主要研究內(nèi)容,通過分析用戶以往評分來預測未評分的項目的評分值。數(shù)據(jù)稀疏性問題對協(xié)同過濾算法的影響主要體現(xiàn)在用戶相似度計算與評分預測生成兩個階段,數(shù)據(jù)稀疏導致用戶之間的公共數(shù)據(jù)變得更加有限,使得用戶之間相似結(jié)果的可信度下降;而受稀疏性的影響近鄰的評分完整性無法保證,在不完整參考評分集上得到的評分預測值也就不能保證較高的準確度。因此,提出了基于

6、絕對相似度度量進行參考用戶(項目)選擇和利用跨維度填補方法提高\參考評分集完整性的方法。實驗結(jié)果驗證了本文提出的算法在減少數(shù)據(jù)稀疏性影響并提高推薦準確性方面的作用。
  第二,基于二分網(wǎng)絡的top-n推薦中數(shù)據(jù)稀疏性問題研究。Top-n推薦是個性化信息推薦中的另一個基本問題,目的是向每個用戶提供一個包含 N個項目的推薦列表。二分網(wǎng)絡的推薦方法是一種比較新穎的方法,這類方法能夠更好地適應比較稀疏的數(shù)據(jù),并且可以獲得更高的推薦精度。以

7、用戶評分為依據(jù)劃分用戶興趣時,只考慮用戶喜歡的項目部分使得數(shù)據(jù)利用率很低,而對用戶不喜歡的項目部分利用的不夠;用戶評分反映的興趣差別不僅應該體現(xiàn)在興趣的有無上,還應該進一步細化到興趣強度的差異上以及興趣資源轉(zhuǎn)移過程中。本文提出了一種新的二分網(wǎng)絡方法,通過分析用戶不喜歡的項目所透露出來的信息建立負興趣感知的用戶興趣模型,并且使用評分敏感的用戶興趣資源初始化方法與資源轉(zhuǎn)移方法來體現(xiàn)用戶興趣在程度上的不同。接下來的實驗表明,使用本文提出的新方

8、法,推薦的效果取得了明顯的提高。
  第三,基于二分網(wǎng)絡的評分預測算法研究。針對節(jié)點度分布不均衡的數(shù)據(jù),提出一種二分網(wǎng)絡上無偏溫差傳導和有偏溫度恒定的算法處理評分預測問題。由于不需要進行相似計算和選擇固定個數(shù)用戶(項目)作為近鄰,二分網(wǎng)絡的方法可以更好地緩解稀疏數(shù)據(jù)的影響。本文提出的算法基于熱傳導的過程,并采用用戶之間的溫差作為傳導與比較的內(nèi)容,并設定節(jié)點獲得的溫差是從所有連接節(jié)點處傳導過來的溫差的均值,以此平衡所有節(jié)點的影響;此

9、外,利用溫度恒定的過程計算項目節(jié)點的預測溫度,得到用戶對項目的評分預測值。由文中進行的實驗可知,在特定類型的數(shù)據(jù)集上,本文提出的算法可以取得比基于協(xié)同過濾的方法更好的效果,并且該算法比經(jīng)典熱傳導方法具有更高的計算效率。
  第四,基于Mapreduce的評分預測與top-n推薦算法的大規(guī)模數(shù)據(jù)處理問題研究。個性化信息推薦在實際應用中要處理的數(shù)據(jù)量越來越大,因此對算法的執(zhí)行效率提出了更高的要求。有些研究針對算法計算過程進行精簡,比如

10、矩陣降維等,但這類方法受限于算法本身,并不能保證精簡的效果一定能夠滿足要求,也不能無限地精簡來提升算法的擴展能力。本文研究了所提出的幾種推薦算法,對基于二分網(wǎng)絡的top-n推薦算法與評分預測算法進行并行化設計與實現(xiàn),利用Mapreduce的并行計算功能將整個算法的計算量分配到多個計算節(jié)點上并發(fā)進行,以此提高算法的執(zhí)行效率,減少處理大規(guī)模數(shù)據(jù)時算法的時間消耗。這類方法的好處是,隨著數(shù)據(jù)量的不斷加大,在算法適用的前提下,只要提供足夠的計算節(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論