版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息存儲(chǔ)技術(shù)和通信技術(shù)的飛速發(fā)展使得越來(lái)越多的文字信息開(kāi)始以計(jì)算機(jī)可讀的形式存在,并且其數(shù)量每天都在增加和更新。對(duì)大量電子文檔進(jìn)行有效的過(guò)濾并進(jìn)行自動(dòng)分類(lèi)組織,將有助于文檔的檢索和分析。 關(guān)聯(lián)分類(lèi)作為基于規(guī)則分類(lèi)方法的一種擴(kuò)展,已經(jīng)引起了眾多研究者的興趣,但其在文本領(lǐng)域的應(yīng)用仍未得到充分的重視。為了使關(guān)聯(lián)分類(lèi)更好地適合文本分類(lèi)的需要,對(duì)關(guān)聯(lián)文本分類(lèi)中存在的主要問(wèn)題進(jìn)行了深入細(xì)致的分析,提出了相應(yīng)的解決策略,取得了比現(xiàn)有文本分類(lèi)系
2、統(tǒng)更好的精度和效率。 圍繞關(guān)聯(lián)文本分類(lèi)的關(guān)鍵技術(shù)完成了以下工作: 比較和分析了不同支持度閾值對(duì)關(guān)聯(lián)分類(lèi)系統(tǒng)性能的影響。證明了在文本分類(lèi)中,較低的支持度設(shè)置可以提供更大的詞典和對(duì)數(shù)據(jù)更全面的描述,因而有利于分類(lèi)性能的提高,但這同時(shí)也會(huì)導(dǎo)致規(guī)則數(shù)目的急劇膨脹和噪聲比例的上升,規(guī)則抽取工作將變得更加低效和困難。 在深入探討影響規(guī)則抽取速度因素的基礎(chǔ)上,針對(duì)規(guī)則抽取中的規(guī)則評(píng)估和規(guī)則篩選,分別提出了兩種優(yōu)化技術(shù)。在評(píng)估階
3、段,提出一種“數(shù)據(jù)緩存”和“倒轉(zhuǎn)匹配”相結(jié)合的優(yōu)化技術(shù),避免了對(duì)原始數(shù)據(jù)集的多次遍歷及對(duì)每個(gè)文檔求子集操作所帶來(lái)的巨大開(kāi)銷(xiāo);在篩選階段,提出一種“垂直修剪”的優(yōu)化技術(shù),代替目前常用的完全方式的“一般-特殊”序裁剪,該方法在保證區(qū)分性能的同時(shí)可明顯減少計(jì)算時(shí)間。 系統(tǒng)研究了關(guān)聯(lián)分類(lèi)環(huán)境下的特征選擇問(wèn)題。分析了在關(guān)聯(lián)分類(lèi)中按傳統(tǒng)的預(yù)處理方式選擇特征所導(dǎo)致的問(wèn)題,闡述了在關(guān)聯(lián)分類(lèi)環(huán)境下設(shè)計(jì)新的特征選擇方法的必要性。通過(guò)證明支持度、置信
4、度與特征選擇常用度量之間存在的轉(zhuǎn)換關(guān)系,提出一種將特征選擇集成到規(guī)則評(píng)估階段的新方法,從而解決了預(yù)選特征不能保證成為頻繁項(xiàng)的難題,同時(shí)總結(jié)對(duì)比了各種特征選擇的常用度量在關(guān)聯(lián)分類(lèi)中的性能表現(xiàn)。在此基礎(chǔ)上,提出了一個(gè)結(jié)合特征選擇和規(guī)則選擇的快速規(guī)則抽取算法FARE。 提出一種新的關(guān)聯(lián)區(qū)分算法ACA,該算法引入了一種“接受者決定”思想,以便當(dāng)多條存在“一般-特殊”序的規(guī)則匹配同一測(cè)試文檔時(shí),由測(cè)試文檔本身自適應(yīng)地選擇其最佳匹配規(guī)則,以
5、取得準(zhǔn)確率和召回率之間的合理平衡。ACA還引入規(guī)范因子和置信區(qū)間的概念,以消除因分類(lèi)器之間規(guī)則數(shù)量和質(zhì)量差異而導(dǎo)致的區(qū)分性能下降。此外,ACA提出利用類(lèi)別特征詞形成虛擬規(guī)則以對(duì)部分無(wú)法匹配的測(cè)試文檔進(jìn)行區(qū)分。對(duì)比實(shí)驗(yàn)表明利用ACA區(qū)分算法可以取得比其它區(qū)分算法更高的精度。 對(duì)不同關(guān)聯(lián)模式在文本分類(lèi)中的應(yīng)用進(jìn)行了深入的探索。提出了一種基于句子級(jí)別約束的2-階段規(guī)則選擇方法,同時(shí)對(duì)句子級(jí)別分類(lèi)方法的優(yōu)缺點(diǎn)進(jìn)行了深入分析:利用句子級(jí)別
6、約束可加快規(guī)則選擇的速度,在某些應(yīng)用中表現(xiàn)出良好的區(qū)分性能,但另一方面,規(guī)則過(guò)少、難以匹配等問(wèn)題限制了其進(jìn)一步的推廣使用。因循這一研究思路,進(jìn)一步提出在文檔級(jí)別利用超級(jí)關(guān)聯(lián)組合替代頻繁項(xiàng)進(jìn)行分類(lèi)的方法,并從候選規(guī)則數(shù)目、訓(xùn)練時(shí)間和區(qū)分性能等多個(gè)角度比較了兩種模式對(duì)分類(lèi)系統(tǒng)的影響,得出了超級(jí)關(guān)聯(lián)組合比頻繁項(xiàng)更適合作為候選模式的重要結(jié)論。與其它著名文本分類(lèi)算法如SVM的對(duì)比還表明,以超級(jí)關(guān)聯(lián)組合作為候選模式,結(jié)合快速規(guī)則抽取算法FARE和關(guān)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Web文本分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 文本分類(lèi)中的關(guān)鍵技術(shù)研究.pdf
- Web文本分類(lèi)關(guān)鍵技術(shù)研究與應(yīng)用.pdf
- 中文Web文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 多層文本分類(lèi)與增量學(xué)習(xí)關(guān)鍵技術(shù)研究.pdf
- 中文文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 面向領(lǐng)域的文本分類(lèi)與挖掘關(guān)鍵技術(shù)研究.pdf
- 面向?qū)@墨I(xiàn)數(shù)據(jù)的文本分類(lèi)若干關(guān)鍵技術(shù)研究.pdf
- 多標(biāo)簽中文文本分類(lèi)中的關(guān)鍵技術(shù)研究.pdf
- 基于改進(jìn)KNN分類(lèi)算法的文本分類(lèi)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- Web文本分類(lèi)關(guān)鍵技術(shù)的研究與實(shí)現(xiàn).pdf
- 短文本分類(lèi)技術(shù)研究.pdf
- 文本分類(lèi)相關(guān)技術(shù)研究.pdf
- 文本分類(lèi)特征選取技術(shù)研究.pdf
- 維吾爾文文本分類(lèi)技術(shù)研究.pdf
- 大規(guī)模Web文本快速分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 中文Web文本分類(lèi)技術(shù)研究.pdf
- 文本語(yǔ)義表示及多層分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 基于關(guān)聯(lián)技術(shù)的中文文本分類(lèi)研究.pdf
- 面向文本分類(lèi)的文本特征學(xué)習(xí)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論