高效率用戶群體興趣趨勢發(fā)現(xiàn)的推薦方法研究.pdf_第1頁
已閱讀1頁,還剩160頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)及電子商務技術的迅速發(fā)展,用戶獲得的信息呈爆炸式的增長。電子商務在給用戶帶來豐富產(chǎn)品和快捷方便的同時,也帶來了諸如數(shù)據(jù)海量、品種多樣、真假難辨等問題的困擾,形成了所謂的“信息過載”,推薦系統(tǒng)就是為應對這一問題而產(chǎn)生的。與搜索引擎和門戶網(wǎng)站不同,推薦系統(tǒng)可以通過分析用戶與其他用戶的關聯(lián)和歷史消費等數(shù)據(jù),預測用戶尚未購買而符合用戶需求的商品,促進用戶從觀望向購買的轉(zhuǎn)化,有效提升用戶對電子商務網(wǎng)站的信賴并提高商品的銷量。然而,用戶數(shù)

2、量和企業(yè)規(guī)模的不斷增長導致把握每個用戶的興趣趨勢十分困難,主要體現(xiàn)在三個方面。首先,多用戶群體中能夠積極參與系統(tǒng)交互的人數(shù)比較少,推薦方法難以將反映多用戶真實需求的數(shù)據(jù)準確地提取出來;其次,用戶對其他用戶和推薦系統(tǒng)的信任度比較低,不利于提取用戶的有價值數(shù)據(jù),妨礙對用戶個性化需求的了解和提升用戶對系統(tǒng)的滿意度;第三,推薦系統(tǒng)通過獲取用戶的個人數(shù)據(jù)來進行更加準確的推薦,這就產(chǎn)生了用戶對個人隱私的擔憂,導致用戶的分享行為變得保守,使推薦系統(tǒng)中

3、隱私收集策略無法充分考慮所有用戶的信息分享偏好。這些問題的存在都不利于推薦系統(tǒng)充分了解用戶的個性化需求,降低了推薦系統(tǒng)的準確率和用戶的滿意度。
  本文以上述三個方面為研究目標,從高活躍度、高信任度、高隱私分享量共三類高效率用戶群體中預測和挖掘出用戶的興趣趨勢,進而做出更準確的個性化推薦,使用戶對電子商務中的推薦系統(tǒng)具有較高的信賴度和滿意度。本文的主要貢獻如下:
  (1)提出一種新的推薦算法Div-clustering,實

4、現(xiàn)了電子商務中用戶實體的數(shù)據(jù)建模,在此基礎上利用改進的k-means聚類算法完成了高活躍度用戶的識別,以識別的高活躍度用戶群體的數(shù)據(jù)優(yōu)化了推薦項目,使推薦系統(tǒng)的推薦準確率更高。Div-clustering通過分析實體數(shù)據(jù)結(jié)構(gòu),建立了多用戶群體的圖模型,研究了高活躍度的用戶群體和推薦項目的特征。實驗中的論文數(shù)據(jù)主要從Elsevier和IEEE等學術網(wǎng)站通過網(wǎng)絡爬蟲Websphinx爬取,電影數(shù)據(jù)來自于兩個著名電影網(wǎng)站MovieLens和I

5、MDB。實驗結(jié)果表明Div-clustering推薦算法在學術論文和電影的推薦中體現(xiàn)出更高的準確率,與傳統(tǒng)基于普通用戶的推薦算法相比,Div-clustering在實時評估和線下分析中表現(xiàn)出更好的穩(wěn)定性,也說明來源于高活躍度用戶群體數(shù)據(jù)產(chǎn)生的推薦比普通用戶群體數(shù)據(jù)產(chǎn)生的推薦,更容易被其它用戶接受和信任。
  (2)針對推薦系統(tǒng)中信任關聯(lián)的稀疏性問題,以高活躍度用戶群體更容易被信任為出發(fā)點,提出挖掘用戶間隱性信任關聯(lián)的推薦算法Poi

6、ntBurst,所挖掘的隱性信任關聯(lián)為用戶間已知的顯性信任關聯(lián)提供了有力的補充,緩解了協(xié)同過濾等傳統(tǒng)算法在電子商務環(huán)境中面臨的信任關聯(lián)稀疏性問題。PointBurst算法在多用戶圖模型的基礎上著重分析用戶間的信任關聯(lián)特征和關聯(lián)強度,優(yōu)化了同類型實體之間的分類和不同類型實體之間的關聯(lián)標記,從已經(jīng)識別為高活躍度用戶群體中,進一步挖掘高信任度的用戶群體和隱性的信任關聯(lián),最終利用已知的顯性信任關聯(lián)和挖掘的隱性信任關聯(lián)共同作為推薦系統(tǒng)的輸入而生成

7、推薦項目。通過在del.icio.us,Myspace和MovieLens等數(shù)據(jù)集中分別運行PointBurst算法和傳統(tǒng)推薦算法進行比較,結(jié)果表明PointBurst算法產(chǎn)生的推薦項目更加準確和穩(wěn)定。
  (3)在用戶的隱私分享量與信任關聯(lián)強度成正比的發(fā)現(xiàn)基礎上,提出一種基于用戶隱私分享因素的學習模型ISBP,探索用戶在信任關聯(lián)中分享個人隱私的潛在因素,識別出高隱私分享量的用戶群體,使推薦系統(tǒng)可以通過收集該用戶群體的數(shù)據(jù)而增加推

8、薦的準確率。ISBP在近期有關隱私分享的研究中歸納了影響用戶在各類電子商務場景中的潛在因素,制定了因素假設,改進了決策樹分類器、K近鄰分類器和樸素貝葉斯分類器,使其能夠檢測出影響用戶在信任關聯(lián)中隱私分享量的潛在因素。將ISBP學習模型運行在從多組實時數(shù)據(jù)平臺SO JUMP收集的數(shù)據(jù)集中后發(fā)現(xiàn),隱私分享量最高的用戶特征是年輕、非計算機類的群體,而與性別無關。在不引起所有用戶隱私擔憂的前提下,該類高隱私分享量的用戶群體可以分享比其它用戶群體

9、更多的個人隱私信息,有利于推薦系統(tǒng)更好地了解用戶需求并產(chǎn)生更準確的推薦。
  (4)發(fā)現(xiàn)了導致高隱私分享量用戶群體流失的溢出現(xiàn)象,并提出了緩解溢出現(xiàn)象的決策支持機制DSS。所謂溢出現(xiàn)象是指,高隱私分享量的用戶群體在受到不良的隱私收集順序影響時,降低了后續(xù)的隱私分享量,使推薦系統(tǒng)不能夠持續(xù)地獲得用戶的準確信息,引起了推薦準確率的下降。在分析多個數(shù)據(jù)集后發(fā)現(xiàn),溢出現(xiàn)象是廣泛存在的,主要體現(xiàn)在向用戶收集高敏感度的隱私項目會使其后續(xù)的隱私

10、分享量下降,而高隱私分享量用戶受到的負面影響最大。本文對k-means聚類算法進行改進,使其可以檢測出用戶改變隱私分享量時對應的心理認知因素的改變,證實了用戶的認知能力會引起溢出現(xiàn)象的產(chǎn)生,根本原因在于沒有足夠的儲備知識來支持自己的隱私分享決策。本文提出了為用戶提供隱私分享的決策支持機制,幫助用戶理解推薦的機理和增加用戶的儲備知識。實驗證明了決策支持機制可以將溢出現(xiàn)象的負面效果降低,保持高隱私分享量的用戶群體繼續(xù)為推薦系統(tǒng)提供充足的用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論