版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、本文以文本信息檢索模型為基準,對文本信息處理的幾個關鍵技術包括文本分類、文本聚類和近似查詢處理等進行研究。文本分類和文本聚類是對數(shù)據(jù)進行組織和管理的核心技術。近似查詢處理需要快速查詢到所需信息,這是解決大規(guī)模數(shù)據(jù)集的一個重要技術。 以下是本文的主要研究內(nèi)容: (1)文本信息處理的技術基礎。包括文檔表示模型、切詞、特征選擇、文本分類和文本聚類。本文簡單介紹了集合模型、代數(shù)模型、概率模型和概念模型等四種文檔表示模型;分析了中
2、文切詞的主要問題和主要方法;具體介紹了文檔特征及其選擇算法;詳細介紹了文本分類和文本聚類,并重點概括了一些重要的文本分類和文本聚類算法。 (2)基于混淆矩陣的層次結構構造。在信息化時代,文檔的海量化和復雜化使得對文檔進行層次分類成為必要。本文根據(jù)描述平面分類器的錯誤情況的混淆矩陣,提出了兩種層次結構構造法。一種是層次聚類法,另一種是混淆類別法。層次聚類法采用合并策略,即:初始時將每個樣本看作一類,然后根據(jù)它們的相似性或距離逐漸合
3、并,直到形成一個大類為止?;煜悇e法根據(jù)各類別間容易混淆的概率大于某個閾值t形成混淆類別,從而構造層次結構。對這兩種算法均給出了詳細的算法。最后通過相關實驗對這兩種層次結構構造方法進行比較。實驗結果表明混淆類別法策略優(yōu)于層次聚類法。主要是因為層次聚類法認為父類下一層的子類間的混淆關系是對稱的,而實際文本并沒有體現(xiàn)這一點。 (3)文檔流派分類研究。文檔流派描述的是文檔的風格,而不是文檔的內(nèi)容。文檔的流派和文檔的主題是正交的。也就是
4、說,相同主題的文檔可以有不同的流派,相同流派的文檔可以描述不同的主題。流派分類在信息檢索、信息過濾、反動信息的攔截和網(wǎng)上輿情調(diào)查等方面發(fā)揮了越來越重要的作用。為了對文檔的正反面進行分類,本文提出了基于特征情感色彩的文檔流派分類方法(情感分類)。對于情感分類來說,它和基于主題的分類在分類方法上并沒有本質(zhì)區(qū)別??梢哉J為,基于文檔的正反面情感分類就是一個普通的二類分類問題。所以,情感特征的選擇和情感傾向判定就尤為重要。因此,本文主要研究情感特
5、征詞的選擇、情感傾向判定和情感傾向權值計算,并研究了幾種典型的方法。 (4)基于小波變換的近似查詢處理。傳統(tǒng)的決策支持系統(tǒng)在數(shù)據(jù)查詢時希望查詢系統(tǒng)能夠根據(jù)提交的查詢提供一個準確的結果,反應時間很長,這是一種典型的“黑盒”模式。但在現(xiàn)今的DSS、在線分析處理、在線聚集等領域,往往不需要一個精準的結果,而對系統(tǒng)的反應速度有很高的要求。這時近似查詢就應運而生。小波已經(jīng)證明了在層次分解(壓縮)領域的高效率。小波變換通過將GB/TB級的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藏文信息處理中若干關鍵技術研究.pdf
- 流量信息處理單元若干關鍵技術的研究.pdf
- 中文信息處理中若干關鍵技術的研究.pdf
- 基于多傳感器信息處理紙幣檢測若干關鍵技術研究.pdf
- 基于信息鏈的智能信息處理關鍵技術研究.pdf
- 視頻多模態(tài)信息處理的關鍵技術研究.pdf
- 基于RFID技術的物聯(lián)網(wǎng)信息處理關鍵技術研究.pdf
- 物流信息處理關鍵技術研究及系統(tǒng)實現(xiàn).pdf
- 醫(yī)療保險系統(tǒng)中信息處理關鍵技術研究.pdf
- 智能交通系統(tǒng)中的信息處理關鍵技術研究.pdf
- 基于目標深度信息處理的水聲探測關鍵技術研究.pdf
- 中醫(yī)醫(yī)案文本挖掘的若干關鍵技術研究.pdf
- 基于內(nèi)容的網(wǎng)絡不良文本信息過濾若干關鍵技術研究.pdf
- 相控陣雷達信息處理中關鍵技術的研究.pdf
- 遙感圖像處理的若干關鍵技術研究.pdf
- 智能交通系統(tǒng)中的信息處理關鍵技術研究(1)
- 視頻道路交通信息處理關鍵技術研究.pdf
- 國庫信息處理系統(tǒng)關鍵技術研究與實現(xiàn).pdf
- 基于制造物聯(lián)網(wǎng)的制造過程信息處理關鍵技術研究.pdf
- 數(shù)控磨床遠程監(jiān)控與診斷現(xiàn)場信息處理關鍵技術研究.pdf
評論
0/150
提交評論