版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)信息資源增長迅猛,對海量數(shù)據(jù)的分類提出了進(jìn)一步的要求。文本分類作為文本挖掘最重要的研究方向,在現(xiàn)實(shí)生活中有著廣泛的應(yīng)用。研究如何對文本進(jìn)行有效的表示、有效的查找信息成為現(xiàn)在文本挖掘領(lǐng)域迫在眉睫的研究課題?,F(xiàn)實(shí)生活中多示例多標(biāo)簽文本大量存在,對文本分類研究提出了新的挑戰(zhàn)。傳統(tǒng)的文本分類基本是單示例單標(biāo)簽分類,無法對多語義、多類別的文本進(jìn)行準(zhǔn)確的處理,本文提出多示例多標(biāo)簽學(xué)習(xí)對多標(biāo)簽文本進(jìn)行準(zhǔn)確有效的分類。
2、r> 本文主要研究了以下幾個(gè)方面的內(nèi)容:
(1)使用多示例多標(biāo)簽學(xué)習(xí)框架進(jìn)行中文文本分類。多示例學(xué)習(xí)和多標(biāo)簽學(xué)習(xí)分別是針對語義歧義和多類別學(xué)習(xí)問題提出的,多示例多標(biāo)簽學(xué)習(xí)(MIML)主要針對圖像分類、網(wǎng)頁檢索等的研究領(lǐng)域并取得了很好的成果,本文將多示例多標(biāo)簽學(xué)習(xí)(MIML)方法應(yīng)用于中文文本分類,針對中文特有的結(jié)構(gòu)及文本的多類別特征,改進(jìn)MIML學(xué)習(xí)框架,使之更適用于中文文本分類,為中文文本分類提出了一種新的思路。
3、 (2)文本表示作為文本分類的一個(gè)關(guān)鍵步驟,對于后續(xù)分類器的學(xué)習(xí)性能有很大的影響。本文針對中文文本語義豐富的特點(diǎn)使用多示例句子包進(jìn)行文本表示。目前主流的文本表示方法有VSM,這種方法以詞作為文本切分粒度,對特征項(xiàng)進(jìn)行了獨(dú)立性假設(shè),詞間的語義信息丟失。針對語義缺失問題,本文引入多示例文本表示,使用多示例包對文本進(jìn)行處理,使用句子作為文本表示的最小單位,使詞間的語義信息得以保留。數(shù)據(jù)表示階段使用多示例句子包的形式進(jìn)行文本表示,避免基于語義獨(dú)
4、立性假設(shè)帶來的語義損失,并進(jìn)一步優(yōu)化處理使其成為主題包,縮短了文本處理的時(shí)間。
(3)在文本分類階段使用改進(jìn)的LSTSVM多標(biāo)簽分類器進(jìn)行分類。對于使用多示例主題包表示的文本,基于退化策略將多示例多標(biāo)簽數(shù)據(jù)通過聚類處理成為單示例多標(biāo)簽學(xué)習(xí),使用改進(jìn)的最小二乘雙支持向量機(jī)(LSTSVM)多標(biāo)簽分類器對文本進(jìn)行分類。最小二乘雙支持向量機(jī)把一個(gè)大型QPP問題轉(zhuǎn)化成兩個(gè)小型QPP問題,計(jì)算速度得到了提升并降低了計(jì)算復(fù)雜度。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于多示例多標(biāo)簽學(xué)習(xí)的圖像分類標(biāo)注.pdf
- 集合多標(biāo)簽文本分類研究.pdf
- 多標(biāo)簽文本分類算法研究.pdf
- 基于主動(dòng)學(xué)習(xí)的多示例文本分類研究.pdf
- 基于多示例多標(biāo)簽的人臉年齡估計(jì)研究.pdf
- 中文多標(biāo)簽文本分類算法研究.pdf
- 基于維基的深度多標(biāo)簽多類別文本分類系統(tǒng).pdf
- 基于主動(dòng)學(xué)習(xí)的多示例多標(biāo)簽學(xué)習(xí)算法研究.pdf
- 基于多標(biāo)簽學(xué)習(xí)框架的微博文本分類研究.pdf
- 基于多示例學(xué)習(xí)的中文文本表示及分類研究.pdf
- 基于SSPP-KELM多標(biāo)簽文本分類算法的實(shí)現(xiàn).pdf
- 基于長短時(shí)記憶網(wǎng)絡(luò)的多標(biāo)簽文本分類.pdf
- 基于Web文本挖掘的SVM網(wǎng)頁文本分類研究.pdf
- 基于標(biāo)簽相關(guān)性的多標(biāo)簽分類算法研究.pdf
- 基于多標(biāo)簽學(xué)習(xí)的圖像分類研究.pdf
- 基于關(guān)聯(lián)規(guī)則的多標(biāo)簽分類研究.pdf
- 基于KNN的多標(biāo)簽分類算法研究.pdf
- 基于多示例多標(biāo)記學(xué)習(xí)的自然場景圖像分類.pdf
- Web文本挖掘中的文本分類研究.pdf
- 基于類引力的多標(biāo)簽分類方法研究.pdf
評論
0/150
提交評論