版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、最近十年來(lái)全世界網(wǎng)民的數(shù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì),截止2011年1月全世界網(wǎng)民的數(shù)量已經(jīng)超過(guò)了20億。在線用戶規(guī)模的急劇擴(kuò)大使得用戶在線行為分析在很多研究領(lǐng)域的意義顯得越來(lái)越重大,如在經(jīng)濟(jì)、學(xué)術(shù)以及社會(huì)事務(wù)等領(lǐng)域。其中,最具有商業(yè)價(jià)值要數(shù)用戶在線商業(yè)意圖(OnlineCommercial Intention)的挖掘。通過(guò)分析用戶的在線行為來(lái)挖掘出用戶個(gè)人興趣及傾向,為有針對(duì)性的廣告投放提供有力的依據(jù),從而達(dá)到更好的廣告推薦效果。
2、文中提出了一種檢測(cè)用戶商業(yè)意圖的新方法架構(gòu),通過(guò)分析用戶瀏覽過(guò)的網(wǎng)頁(yè)信息,從中挖掘出用戶個(gè)性化的購(gòu)買傾向。借助于大型購(gòu)物平臺(tái)上搜索引擎的歷史記錄以及搜索結(jié)果頁(yè)面上商品的點(diǎn)擊分布情況,通過(guò)統(tǒng)計(jì)分析建立起搜索詞與商品類目之間的關(guān)聯(lián)—關(guān)鍵詞詞典。利用這一詞典我們可以從用戶瀏覽過(guò)的網(wǎng)頁(yè)內(nèi)容中抽取出一系列能夠體現(xiàn)用戶商業(yè)意圖的關(guān)鍵詞,關(guān)鍵詞選取的標(biāo)準(zhǔn)包括關(guān)鍵詞的TF、ICF、QF以及關(guān)鍵詞本身的長(zhǎng)度。每一個(gè)關(guān)鍵詞根據(jù)關(guān)鍵詞詞典將被映射到一系列的商
3、品類目,其中分值最高的幾個(gè)商品類目將視為頁(yè)面的商業(yè)意圖檢測(cè)結(jié)果。為了消除一些不相關(guān)類目對(duì)于用戶商業(yè)意圖結(jié)果的影響并使得OCI結(jié)果更加集中,類目的相似度模型被引入來(lái)修正OCI結(jié)果中的分值。用戶每天的商業(yè)意圖通過(guò)聚合其當(dāng)天瀏覽過(guò)頁(yè)面的OCI結(jié)果得到。為了體現(xiàn)出商業(yè)意圖短暫、靈活多變的特點(diǎn),我們提出了用戶時(shí)間維度上的商業(yè)意圖模型來(lái)更真實(shí)地體現(xiàn)出用戶的實(shí)時(shí)商業(yè)意圖變化。
為了評(píng)估所提出OCI檢測(cè)方法的效果,在實(shí)驗(yàn)部分,通過(guò)制定統(tǒng)一的評(píng)
4、測(cè)標(biāo)準(zhǔn),評(píng)測(cè)人員對(duì)于隨機(jī)抽取的1036個(gè)測(cè)試頁(yè)面的商業(yè)意圖結(jié)果進(jìn)行了人工標(biāo)注。從標(biāo)注結(jié)果與系統(tǒng)檢測(cè)結(jié)果的對(duì)比中可知,在檢測(cè)商業(yè)意圖存在的角度,系統(tǒng)判斷的準(zhǔn)確率達(dá)到了70%,召回率達(dá)到了將近90%;而從系統(tǒng)匹商業(yè)類目的角度來(lái)看,系統(tǒng)匹配商業(yè)類目的正確率達(dá)到了86%。通過(guò)后續(xù)的實(shí)驗(yàn)我們還發(fā)現(xiàn),通過(guò)限制頁(yè)面關(guān)鍵詞的數(shù)量以及設(shè)定匹配類目最小闕值等方法可以有效地提升系統(tǒng)檢測(cè)商業(yè)意圖的整體效果。
作為最終的分析結(jié)果,系統(tǒng)以一系列商品類目的
5、形式給出了用戶在一段時(shí)間內(nèi)的商業(yè)意圖。根據(jù)商品類目在一段時(shí)間內(nèi)的分值變化情況,可以推測(cè)出用戶在這一段時(shí)間內(nèi)購(gòu)買某一類商品的傾向及對(duì)應(yīng)程度。通過(guò)構(gòu)建合適的用戶購(gòu)買行為模型,可以對(duì)目標(biāo)用戶進(jìn)行有針對(duì)性的商品推薦。
借助于大規(guī)模分布式計(jì)算架構(gòu),文中所提到的OCI檢測(cè)系統(tǒng)流程可以應(yīng)用于大規(guī)模用戶行為數(shù)據(jù)的分析。正在運(yùn)營(yíng)的系統(tǒng)每天可以處理十億級(jí)別的用戶瀏覽記錄,用來(lái)分析得到幾千萬(wàn)用戶的具體商業(yè)意圖,每個(gè)小時(shí)的數(shù)據(jù)處理量大約在150GB。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大規(guī)模語(yǔ)義數(shù)據(jù)分析系統(tǒng).pdf
- 超大規(guī)模用戶用電智能采集與數(shù)據(jù)分析平臺(tái)設(shè)計(jì).pdf
- 基于大規(guī)模位置和消費(fèi)數(shù)據(jù)的用戶行為理解.pdf
- 基于復(fù)雜網(wǎng)絡(luò)的大規(guī)模電信數(shù)據(jù)分析研究.pdf
- 大規(guī)模高速網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法.pdf
- 基于大規(guī)模手機(jī)感知數(shù)據(jù)的用戶特性挖掘.pdf
- 基于海量數(shù)據(jù)的用戶行為數(shù)據(jù)分析系統(tǒng)研究與實(shí)現(xiàn).pdf
- 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺(tái)的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf
- 基于微博用戶行為的數(shù)學(xué)建模和數(shù)據(jù)分析.pdf
- 基于用戶行為數(shù)據(jù)分析的移動(dòng)互聯(lián)業(yè)務(wù)推薦模型.pdf
- 社交網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái)及用戶轉(zhuǎn)發(fā)行為分析.pdf
- 7471.面向大規(guī)模在線學(xué)習(xí)活動(dòng)流的行為序列分析
- 基于大規(guī)模數(shù)據(jù)挖掘的VOD系統(tǒng)用戶忠誠(chéng)度演進(jìn)分析.pdf
- 基于用戶行為數(shù)據(jù)分析的個(gè)性化推薦算法研究.pdf
- “百里毅行”大規(guī)模運(yùn)動(dòng)應(yīng)用系統(tǒng)及數(shù)據(jù)分析研究.pdf
- H-KTT聚類算法及其在大規(guī)模AMI數(shù)據(jù)分析中的應(yīng)用.pdf
- 用戶行為視頻音頻數(shù)據(jù)分析工具的研究與開(kāi)發(fā).pdf
- 基于用戶行為數(shù)據(jù)分析的彩鈴業(yè)務(wù)渠道精確營(yíng)銷.pdf
- 大規(guī)模數(shù)據(jù)聚類分析方法研究.pdf
評(píng)論
0/150
提交評(píng)論