版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、分類號:密級:UDC:學號:406107611089南昌大學碩士研究生學位論文基于基于TFIDFGA特征選擇的文本模糊聚類方法研究特征選擇的文本模糊聚類方法研究StudyonTextFuzzyClusteringMethodBasedontheImprovedFeatureionwithTFIDFGA鄧高超培養(yǎng)單位(院、系):信息工程學院指導教師姓名、職稱:陶俊才教授申請學位的學科門類:工學學科專業(yè)名稱:計算機軟件與理論論文答辯日期:2
2、014年5月24日答辯委員會主席:_____________評閱人:_______________年月日摘要摘要文本聚類是在沒有文本類別標記的情況下對文本進行分類,使同類別的文本間相似度盡可能大,不同類別的文本間相似度盡可能小。而今,隨著信息的爆炸式增長以及學科類別間的交叉滲透,文本日益大量化和多樣化,文本的類別隸屬度界限越來越不明確。于是,文本模糊聚類漸漸成為文本聚類的另一個研究方向。本文從特征選擇和模糊C均值算法兩個方面對文本模糊聚
3、類進行研究:1、無監(jiān)督特征選擇方法。特征選擇方法主要有過濾式、封裝式和嵌入式三種,本文結合過濾式和封裝式方法,即詞頻反文檔頻率(TermFrequencyInverseDocumentFrequency,TFIDF)算法和遺傳算法(GeicAlgithm,GA)相結合,提出基于TFIDFGA的無監(jiān)督特征選擇方法。該方法通過改進后的TFIDF公式計算特征權重,然后根據選擇規(guī)則得到初始特征子集,將該特征子集作為遺傳算法的初始種群進行迭代搜索
4、。初始特征子集能夠為遺傳算法提供較好的搜索起點,加快搜索速度,同時遺傳算法的自適應全局搜索能力能夠啟發(fā)式搜索到具有很強分類能力卻沒有包含在初始特征子集中的特征。2、模糊C均值聚類算法。模糊C均值聚類算法(FuzzyCMeans,FCM)在基于目標的模糊聚類算法中應用最為廣泛。本文對FCM算法進行改進,使用密度參數初始化聚類中心,能在一定程度上降低由于初始聚類中心選取的隨機性對算法產生的誤差;在FCM算法的約束條件中引入信息熵,更好地描述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于文本聚類的特征選擇算法研究.pdf
- 基于模糊聚類的文本挖掘方法研究.pdf
- 面向文本聚類的特征選擇方法及應用研究.pdf
- 融合實例選擇和特征選擇的文本聚類性能優(yōu)化方法.pdf
- 基于模糊聚類方法的盲文本數字水印研究.pdf
- 基于模糊聚類算法的文本挖掘.pdf
- 中文文本聚類中特征選擇算法的研究.pdf
- 聚類特征選擇方法的研究和應用
- 基于簇特征的文本增量聚類研究.pdf
- 基于RI方法的文本聚類研究.pdf
- 聚類特征選擇方法的研究和應用.pdf
- 基于增量聚類和ReliefF的特征選擇方法.pdf
- 基于GA優(yōu)化的核模糊C均值聚類算法的研究.pdf
- 基于模糊聚類理論的文本水印算法研究.pdf
- 基于混合文本集的文本聚類方法研究.pdf
- 特征加權的廣義熵模糊聚類方法研究.pdf
- 基于特征加權的半監(jiān)督文本聚類研究.pdf
- 基于混合特征的模糊聚類技術研究.pdf
- 基于模糊聚類的客戶分類方法研究.pdf
- 基于模糊聚類的入侵檢測方法研究.pdf
評論
0/150
提交評論