基于標(biāo)簽—主題模型的標(biāo)簽推薦研究.pdf_第1頁
已閱讀1頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、社會(huì)標(biāo)簽系統(tǒng)是一種用戶組織、管理、共享資源的機(jī)制,它允許用戶對系統(tǒng)資源添加任意的詞語而形成社會(huì)標(biāo)簽,并且因其入門簡單快速、操作靈活易用而隨著Web2.0的發(fā)展成為當(dāng)下最流行的應(yīng)用之一。
  社會(huì)標(biāo)簽存在噪音標(biāo)簽、使用無規(guī)范、使用頻率低及分布稀疏等問題。為了提高社會(huì)標(biāo)簽的質(zhì)量,標(biāo)簽推薦技術(shù)應(yīng)運(yùn)而生,近年來受到了各界的廣泛關(guān)注,也成為了信息檢索領(lǐng)域的熱門研究方向。
  本文就是圍繞圖書標(biāo)簽推薦系統(tǒng)中標(biāo)簽推薦技術(shù)來展開的。具體工作

2、如下:
  第一,提出了一種基于標(biāo)簽-主題模型的標(biāo)簽推薦方法。通過訓(xùn)練好的標(biāo)簽-主題模型求得標(biāo)簽生成詞語的概率值,同時(shí)將新的文本表示成詞集,針對詞集中每個(gè)詞,結(jié)合標(biāo)簽生成詞語的概率值來計(jì)算出其與標(biāo)簽集中各標(biāo)簽的概率分布,最后,綜合這些概率值即可得到與該文本的概率最高的標(biāo)簽。并在此基礎(chǔ)上增加一個(gè)簡單的TF-IDF值計(jì)算,輔助提高最終的標(biāo)簽推薦結(jié)果。實(shí)驗(yàn)表明在利用隱含主題這一粗粒度特征的過程中增加對詞這一細(xì)粒度的特征描述能夠有效提高推

3、薦效果,并且利用對比實(shí)驗(yàn)驗(yàn)證了該方法的可取性。
  第二,實(shí)現(xiàn)了一個(gè)圖書標(biāo)簽推薦系統(tǒng)。該系統(tǒng)主要分為三個(gè)模塊:圖書標(biāo)簽推薦模塊,輸入任何一本書的內(nèi)容簡介,系統(tǒng)對該內(nèi)容簡介進(jìn)行預(yù)處理,再利用系統(tǒng)所建模型對其推薦十個(gè)標(biāo)簽;圖書瀏覽和檢索模塊,從數(shù)據(jù)庫中獲取使用頻率最高的前幾個(gè)標(biāo)簽,顯示在頁面,點(diǎn)擊標(biāo)簽?zāi)艿玫綌?shù)據(jù)庫中貼有該標(biāo)簽的所有圖書列表,檢索該標(biāo)簽得到同樣的結(jié)果;圖書添加模塊,按要求輸入圖書的各種屬性信息,針對輸入的信息進(jìn)行標(biāo)簽推薦

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論