版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),移動(dòng)互聯(lián)網(wǎng)和社交媒體異軍突起,逐步取代了傳統(tǒng)的博客、BBS論壇,成為人們進(jìn)行社交、學(xué)習(xí)、娛樂(lè)的主要平臺(tái)。與此同時(shí),伴隨著整個(gè)社會(huì)對(duì)于互聯(lián)網(wǎng)、特別是移動(dòng)互聯(lián)網(wǎng)的廣泛接受,被連接的用戶數(shù)以及用戶產(chǎn)生數(shù)據(jù)(UGC),呈現(xiàn)出爆發(fā)式增長(zhǎng)。較之前的互聯(lián)網(wǎng)媒體技術(shù)(諸如郵件、論壇、博客),社交媒體記錄的數(shù)據(jù)類型更加豐富、及時(shí),時(shí)效性更強(qiáng)。特別的,微博類型的社交媒體數(shù)據(jù),成為了信息發(fā)布、用戶間互動(dòng)、事件發(fā)現(xiàn)擴(kuò)散的公眾平臺(tái)。作為一種允許公開(kāi)訪問(wèn)、
2、內(nèi)容簡(jiǎn)短、近乎實(shí)時(shí)、海量規(guī)模的典型大數(shù)據(jù),微博等社交媒體數(shù)據(jù)獲得了學(xué)術(shù)界以及工業(yè)界研究者的廣泛關(guān)注。為了充分利用這一數(shù)據(jù)源,學(xué)術(shù)界在社交網(wǎng)絡(luò)理論、用戶行為模式、公共事件發(fā)展規(guī)律、謠言發(fā)現(xiàn)檢測(cè)方法的等方面開(kāi)展了廣泛的研究。總體而言,社交媒體大數(shù)據(jù)中蘊(yùn)含的寶貴信息、知識(shí)需要新穎的數(shù)據(jù)處理、分析方法來(lái)解決。但是,社交媒體大數(shù)據(jù)的長(zhǎng)度短、質(zhì)量差、變化迅速、相關(guān)性弱這些問(wèn)題也形成了新的挑戰(zhàn)和問(wèn)題,使得傳統(tǒng)的數(shù)據(jù)挖掘方法無(wú)能為力。
為了應(yīng)
3、對(duì)社交媒體大數(shù)據(jù)中”序列性”、”行為性”、”多源性”等挑戰(zhàn),更好的實(shí)現(xiàn)基于社交數(shù)據(jù)的用戶信用畫(huà)像這一目標(biāo),本文進(jìn)行了微博類型數(shù)據(jù)的高效序列挖掘算法、基于微博用戶隱行為模式的用戶信用畫(huà)像、基于特征設(shè)計(jì)和集成學(xué)習(xí)融合多源信息的用戶信用畫(huà)像三個(gè)方面的研究。除此之外,在微博數(shù)據(jù)下用戶信用畫(huà)像算法的研究過(guò)程中,對(duì)于社交大數(shù)據(jù)上用戶畫(huà)像算法、技術(shù)做出研究歸納和展望。具體而言,本論文的主要研究?jī)?nèi)容、創(chuàng)新點(diǎn)和學(xué)術(shù)貢獻(xiàn)包括以下三方面:
1)微博
4、數(shù)據(jù)是以時(shí)間線(Timeline)的形式呈現(xiàn)給用戶,本質(zhì)上是一種事件類型的序列數(shù)據(jù)。事件序列數(shù)據(jù)挖掘除了考慮項(xiàng)目(item)出現(xiàn)頻率外,也開(kāi)始考慮項(xiàng)目的效用(utility),進(jìn)而實(shí)現(xiàn)高效用事件片段挖掘。針對(duì)單條事件序列的高效用挖掘,本文提出了對(duì)現(xiàn)有高效用片段(high utility episode)挖掘算法的多重優(yōu)化策略,使得算法運(yùn)行速度和內(nèi)存效率都得到大規(guī)模的提升。更重要的一點(diǎn),本文引入的詞法序前綴樹(shù)挖掘框架具有更緊的剪枝閾值估計(jì)
5、,使得針對(duì)事件序列的高效用事件片段挖掘算法變得快速而實(shí)用(第三章)。
2)微博數(shù)據(jù)中每一條微博,包含了限定長(zhǎng)度的用戶產(chǎn)生文本內(nèi)容,也包含了與用戶行為相關(guān)的上下文信息。文本和行為兩種數(shù)據(jù)源可以同時(shí)為用戶信用建模提供數(shù)據(jù)支持,但是簡(jiǎn)單特征抽取然后組合的做法,難以發(fā)現(xiàn)用戶文本和行為數(shù)據(jù)之間的緊相關(guān)性。為了實(shí)現(xiàn)基于行為模式的用戶信用畫(huà)像,本文通過(guò)概率圖模型的建模方法,將可觀察的用戶文本和多種行為特征融合,從而獲取為信用預(yù)測(cè)提供輸入的用
6、戶隱行為模式。本文設(shè)計(jì)的概率主題模型LUBD-CM,假設(shè)一條微博由同一個(gè)主題產(chǎn)生,并且微博上行為數(shù)據(jù)和文本數(shù)據(jù)都受所分配主題約束。實(shí)驗(yàn)結(jié)果表明,LUBD-CM這一模型相對(duì)LUBD-CM的簡(jiǎn)化變種,傳統(tǒng)的LDA,樸素Bayes算法,對(duì)于用戶信用標(biāo)簽的預(yù)測(cè)性能都有大幅提升(第四章)。
3)社交平臺(tái)上的用戶數(shù)據(jù),除了用戶產(chǎn)生內(nèi)容,也包括用戶個(gè)人信息、社交網(wǎng)絡(luò)關(guān)系。不同來(lái)源的用戶社交數(shù)據(jù),蘊(yùn)含了不同類型的與用戶信用相關(guān)的信息。但是,微
7、博社交數(shù)據(jù)的“即時(shí)性”導(dǎo)致數(shù)據(jù)質(zhì)量一般很低,難以作為標(biāo)準(zhǔn)分類器如SVM、決策樹(shù)的輸入并獲得較高的用戶標(biāo)簽預(yù)測(cè)性能。為了融合多源異構(gòu)社交數(shù)據(jù)中信用畫(huà)像有效信息,本文從個(gè)人信用相關(guān)的領(lǐng)域知識(shí)入手,廣泛分析多種可能的特征設(shè)計(jì)方案,從中選擇較好的社交特征,并且利用雙層集成學(xué)習(xí)框架,全面挖掘隱含在多種社交特征中的有效信息,從而實(shí)現(xiàn)綜合堆棧方法、提升方法和集成方法的用戶信用畫(huà)像預(yù)測(cè)系統(tǒng)(第五章)。
值得一提的是,本文提出的針對(duì)微博社交數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于主題模型的社交網(wǎng)絡(luò)用戶畫(huà)像分析方法.pdf
- 基于話單數(shù)據(jù)的移動(dòng)通信用戶畫(huà)像研究.pdf
- 用戶畫(huà)像數(shù)據(jù)建模方法
- 基于大數(shù)據(jù)方法的用戶用電模式分析.pdf
- 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘.pdf
- 基于大數(shù)據(jù)的用戶用電特性研究.pdf
- 面向社交商務(wù)的大數(shù)據(jù)分析方法研究.pdf
- 基于社交大數(shù)據(jù)的智能手機(jī)市場(chǎng)營(yíng)銷研究——以HW手機(jī)為例.pdf
- 基于用戶特征的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘研究.pdf
- 大數(shù)據(jù)背景下的移動(dòng)社交型APP用戶體驗(yàn)設(shè)計(jì)研究.pdf
- 大數(shù)據(jù)時(shí)代用戶畫(huà)像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷
- 基于時(shí)空數(shù)據(jù)的用戶社交鏈接預(yù)測(cè)研究.pdf
- 基于社交媒體大數(shù)據(jù)的Twitter營(yíng)銷策略研究.pdf
- 基于用戶認(rèn)知的大數(shù)據(jù)可視化視覺(jué)呈現(xiàn)方法研究.pdf
- 社交媒體大數(shù)據(jù)的樸素貝葉斯分類方法研究.pdf
- 基于大數(shù)據(jù)的社交媒體區(qū)域監(jiān)控技術(shù)研究.pdf
- 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘-畢業(yè)論文
- 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘-畢業(yè)論文
- 基于文本挖掘的用戶畫(huà)像研究.pdf
- 社交網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái)及用戶轉(zhuǎn)發(fā)行為分析.pdf
評(píng)論
0/150
提交評(píng)論