Web文本分類關(guān)鍵技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數(shù)：137 大?。?.63MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩136頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、九十年代以來，Internet以驚人的速度向前發(fā)展，Web作為信息制造、發(fā)布、加工與處理的主要平臺，出現(xiàn)了海量的、異構(gòu)的、動態(tài)的、半結(jié)構(gòu)化或非結(jié)構(gòu)化的信息資源，并且在這些Web信息中有80％以上的信息是以Web文本的形式存在的，容量增長迅速，平均每天增加100萬個頁面。隨著Internet這樣的擴展和大量在線文本的出現(xiàn)，將標(biāo)志這巨大的非結(jié)構(gòu)型或半結(jié)構(gòu)型數(shù)據(jù)海洋中，蘊藏著極其豐富的有用信息即知識。如何在Web所提供的海量信息中發(fā)現(xiàn)有用的信

2、息和知識模式并加以有效利用，一直是人們努力探索的問題。搜索引擎的分類瀏覽模式，檢索效果好，能協(xié)助用戶尋找所需信息，但是需要人工維護，維護成本高，信息更新慢，維護的工作量大，同時搜索結(jié)果精度不高，召回率有限，更不能滿足用戶給出特殊的個性化服務(wù)要求。因此，基于Web文本數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)運而生。Web文本分類可以有效的解決上述問題，并能依據(jù)網(wǎng)頁中所包含的文本的語義將大量的網(wǎng)頁自動分門別類，從而更好地幫助人們把握Web信息，幫助用戶快速、準(zhǔn)確的

3、對目標(biāo)知識進行定位，縮減搜索空間，加快檢索速度，提高查詢精度。 Web文本分類是Web文本挖掘的關(guān)鍵組成部分。本文在分析Web文本挖掘和Web文本分類的研究現(xiàn)狀和存在問題的基礎(chǔ)上，針對復(fù)雜、海量及半結(jié)構(gòu)化與非結(jié)構(gòu)化的文本數(shù)據(jù)類型的特性，從知識發(fā)現(xiàn)內(nèi)在認知機理研究的角度出發(fā)，把知識發(fā)現(xiàn)過程視為認知過程，把知識發(fā)現(xiàn)系統(tǒng)視為認知系統(tǒng)，建立文本庫與知識庫的內(nèi)在聯(lián)系“通道"--雙庫協(xié)同機制，用知識庫的知識去參與、制約與驅(qū)動知識發(fā)現(xiàn)的發(fā)掘過

4、程，構(gòu)造啟發(fā)型與中斷型協(xié)調(diào)器來模擬認知心理學(xué)的“創(chuàng)建意向”和"心理信息修復(fù)”特征，分別實現(xiàn)系統(tǒng)自主發(fā)現(xiàn)知識短缺來形成“定向發(fā)掘”和實現(xiàn)知識庫實時維護的“定向搜索”，模擬人類學(xué)習(xí)方式，實現(xiàn)文本庫信息擴張機制的漸增、遞進式的知識發(fā)現(xiàn)。從而在Web文本分類進程與知識庫的廣泛聯(lián)系中，改進與優(yōu)化了Web文本分類的結(jié)構(gòu)、過程與運行機制，形成了Web文本分類系統(tǒng)的改進的結(jié)構(gòu)模型——算法——應(yīng)用一體化的線路。進一步研究了Web文本分類過程中的關(guān)鍵技術(shù)，

5、如文本采集、分詞、特征降維、特征權(quán)值計算、分類等若干關(guān)鍵技術(shù)。針對不完備信息、不確定信息、知識發(fā)掘認知自主性，分別給出了結(jié)合粗糙集、模糊集和內(nèi)在認知機理的Web文本分類的混合的改進算法。本文主要研究內(nèi)容和創(chuàng)新點具體包括以下幾個方面： (1)構(gòu)建Web文本分類系統(tǒng)模型。給出了文本預(yù)處理模塊、分類模塊、分類質(zhì)量評價模塊的功能和內(nèi)容以及整體模型框架，對Web文本分類系統(tǒng)模型中的關(guān)鍵技術(shù)：文本采集、分詞處理、文本的特征表示、特

6、征降維、權(quán)重計算和分類技術(shù)進行了研究，同時描述了影響分類性能評價的五個因素和幾種常用的分類質(zhì)量評價方法。 (2)給出一種Web文本采集算法和采集系統(tǒng)。針對web文本采集技術(shù)、文本采集系統(tǒng)中的數(shù)據(jù)庫設(shè)計方法、采集系統(tǒng)功能設(shè)計內(nèi)容、采集算法進行了研究，描述了從Internet上采集web文本形成web的TXT文件集的具體采集過程。 (3)提出一種基于雙庫協(xié)同機制與粗糙集的Web文本分類關(guān)聯(lián)規(guī)則挖掘算法。采

7、用互信息計算公式進行特征的初步選擇和用粗糙集理論進行進一步屬性約簡相結(jié)合，實現(xiàn)了文本特征的更有效降維處理，大大縮減了文本高維特征空間。文本分類規(guī)則挖掘結(jié)合基于內(nèi)在認知的雙庫協(xié)同機制進行關(guān)聯(lián)分析方法和有效的進一步規(guī)則優(yōu)化提取，啟用中斷型協(xié)調(diào)器，經(jīng)過這樣的處理后，規(guī)則中的條件屬性數(shù)目、規(guī)則沖突被盡可能減少，規(guī)則的適應(yīng)性更強。再將兩結(jié)合的特征降維方法和多結(jié)合的分類規(guī)則挖掘方法混合使用，更十分有效實現(xiàn)了文本的分類。對混合挖掘算法進行了實驗，并結(jié)

8、合常用的關(guān)聯(lián)規(guī)則分類法和SVM方類法對該改進混合算法進行比較，驗證該算法的可行性。 (4)提出一種基于模糊綜合加權(quán)推理的Web文本模糊分類改進算法。模糊推理方法是運用知識規(guī)則進行推理，使機器具有思維能力，自動求解問題，它的工作方式與人類的認知過程極為相似。通過模糊推理來對文本模糊分類，建立起了樣本對于類別的不確定性的描述，使歸類結(jié)果比精確分類更有效地反映Web文本的真實信息。針對基于最大——最小合成法模糊推理歸類這種方

9、法在模糊運算的過程中只能保持主要信息，忽略很多次要因素，雖然能減少運算工作量，但其分類結(jié)果適應(yīng)性、可信度不很理想的情況，提出一種改進模糊綜合加權(quán)評判算法。使用了本文給出的一種“綜合加權(quán)型，算子(x)(·，(+))，基于有界和——代數(shù)積進行推理運算，根據(jù)權(quán)重系數(shù)綜合考慮每個因素的影響建立的模糊分類系統(tǒng)的模糊推理機制，能確保推理結(jié)果的準(zhǔn)確性及可信度。對該算法進行了實驗，同時結(jié)合基于最大一最小合成模糊推理方法對該改進算法進行比較，驗證該算法的

10、可行性。 (5)提出一種基于內(nèi)在認知機理的帶反饋的質(zhì)心Web文本分類改進算法。結(jié)合認知科學(xué)，針對只有訓(xùn)練與分類兩階段的分類方法，不具備不斷學(xué)習(xí)的能力和分類能力在將來的分類過程中是固定不變的情況，在文本訓(xùn)練及分類階段的基礎(chǔ)上增加了自動反饋階段，實現(xiàn)模擬人類學(xué)習(xí)方式的漸增、遞進式知識發(fā)現(xiàn)方式，實現(xiàn)分類器自識調(diào)節(jié)和修正來提高文本分類智能化程度和分類有效性。并對該改進算法進行了實驗，與傳統(tǒng)的質(zhì)心文本分類作比較，驗證該算法的可行

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Web文本分類關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

Web文本分類關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載