2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、社會(huì)化媒體平臺(tái)是指為用戶提供評(píng)論、投票、反饋、分享等功能的在線媒體,像鳳凰網(wǎng)等新聞網(wǎng)站、亞馬遜和淘寶等電商網(wǎng)站、豆瓣等電影評(píng)論網(wǎng)站。用戶網(wǎng)絡(luò)評(píng)論是社會(huì)輿論的一種表現(xiàn)形式,具有公開性和可用性特點(diǎn),群體意見為其他用戶在決定購買產(chǎn)品或使用服務(wù)的時(shí)候提供了參考。理解用戶評(píng)論行為進(jìn)行屬性推斷,可以幫助企業(yè)、機(jī)構(gòu)、政府等提高服務(wù)質(zhì)量,用于個(gè)性化推薦、市場(chǎng)營銷等,具有重要應(yīng)用價(jià)值。然而社會(huì)化媒體用戶多為匿名身份,其評(píng)論行為數(shù)據(jù)具有碎片化、信息價(jià)值含量

2、低和不平衡的特點(diǎn),且用戶群體的屬性分布嚴(yán)重不均衡,這些問題給用戶屬性推斷帶來挑戰(zhàn)。
  針對(duì)用戶評(píng)論行為數(shù)據(jù)分布不平衡、噪音和碎片化的問題,本文引入客體信息、環(huán)境信息,作為對(duì)用戶評(píng)論行為數(shù)量少的補(bǔ)充信息,輔助用戶特征建模;結(jié)合基于語義知識(shí)庫的層次化語義建模方法和基于詞向量模型學(xué)習(xí)詞向量的文本挖掘方法深度挖掘用戶評(píng)論,分別從全局的角度和局部的角度消除詞語歧義帶來的不良影響,并保留評(píng)論中潛在的語義關(guān)系,從而達(dá)到深度挖掘用戶評(píng)論潛在的語

3、義特征的目的。
  針對(duì)建模后的用戶特征維度大,碎片化數(shù)據(jù)價(jià)值含量低等問題,基于信息增益度量特征重要性,提出兩種代表性概率特征篩選算法的改進(jìn)策略:概率包裹式特征選擇算法和啟發(fā)式概率特征搜索算法,分別在分類學(xué)習(xí)前和迭代式學(xué)習(xí)過程中進(jìn)行概率特征選擇,既保留了重要特征信息,也給低價(jià)值特征提供小概率選擇機(jī)會(huì),篩選密切相關(guān)特征,以降低搜索空間,提高收斂速度和學(xué)習(xí)效果。
  針對(duì)用戶屬性不均衡問題,提出了面向小比例類型數(shù)據(jù)的差異性特征選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論