版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、支持向量機(Support Vector Machines,簡稱SVM)是基于統(tǒng)計學習理論的一種新的數(shù)據(jù)挖掘技術(shù),它借助于最優(yōu)化方法來解決復雜的機器學習問題。SVM是處理小樣本、高維數(shù)據(jù)的有效方法,它有著良好的理論基礎(chǔ)的支持。它能夠較好地解決了神經(jīng)網(wǎng)絡(luò)等方法的過學習問題,同時也能夠較好地克服維數(shù)災難問題。 二十一世紀是生命科學迅猛發(fā)展的時代,生物數(shù)據(jù)呈指數(shù)增長,分析和挖掘生物數(shù)據(jù)背后隱藏的生物學規(guī)律已成為生命科學家關(guān)注的焦點。人
2、類基因組中DNA序列的功能性研究是一個重要研究方向。對于一個給定的DNA序列,判斷它是基因序列還是間區(qū)序列是進一步分析序列的前提。開發(fā)有效和快捷的分析算法是加速分析和理解生物信息的重要手段之一。目前國際上已有很多基因識別軟件,但大多數(shù)軟件不能識別完整的基因。 本文主要研究目標是利用SVM和其它的機器學習方法對生物數(shù)據(jù)進行分類。論文首先系統(tǒng)地研究了基于統(tǒng)計學習理論的生物數(shù)據(jù)分類技術(shù);然后,對不同的學習方法進行了性能比較和評價。
3、 統(tǒng)計學習理論的最大貢獻是提出了結(jié)構(gòu)風險最小化(SRM)歸納原理和基于該原理的實現(xiàn)方法一支持向量機。SRM原則已經(jīng)顯示出了優(yōu)于傳統(tǒng)的用于一般的神經(jīng)網(wǎng)絡(luò)的經(jīng)驗風險最小化(ERM)原則。SRM原則最小化經(jīng)驗風險和置信范圍的和,而ERM原則最小化訓練誤差。其差別在于基于SRM原則的SVM學習方法有更好的推廣能力,這正是統(tǒng)計學習的目標。 從長長的DNA序列中準確地提取出具有分類特征的訓練屬性是機器學習的第一步。針對DNA數(shù)據(jù)的復雜性
4、,本文提出了一種基于語言學方法的特征提取方法。假設(shè)僅考慮2類問題,該方法將出現(xiàn)在DNA序列中的所有長度為2~6的短序列作為候選特征詞匯,對每個候選的特征詞匯計算它在DNA序列集中的各個序列出現(xiàn)的頻率、在DNA序列集合中出現(xiàn)頻率,以及在不同類序列集內(nèi)出現(xiàn)的相對差,來決定它是否為關(guān)鍵詞匯作為訓練屬性。從而,將DNA序列映射到歐式空間中,使每個DNA序列對應于歐式空間中的一個向量。 論文提出并實現(xiàn)了利用支持向量機來識別人類完整基因的方
5、法,在不依賴于特殊的生物領(lǐng)域信息的基礎(chǔ)上使基因識別分類精度達到了85%。在對完整基因的實現(xiàn)分類的基礎(chǔ)上,通過大量試驗,對復雜的訓練參數(shù)選擇,提出了在SVM訓練過程中參數(shù)選擇的具體而有效的方法。在對訓練數(shù)據(jù)沒有充分了解的情況下,對于C-SVC訓練中,懲罰因子C從大到小地選取往往比其從小到大地選取更快地找到最佳訓練結(jié)果。論文通過與其它學習方法進行比對,驗證了SVM方法的諸多優(yōu)勢。對DNA序列分類問題,首次將SVM訓練方法與二元Logisti
6、c回歸(BLR)方法進行了比較。在處理高維、復雜數(shù)據(jù)分類問題上,SVM不僅在分類精度上優(yōu)于BLR和人工神經(jīng)網(wǎng)絡(luò)(ANN),而且在訓練速度上遠遠優(yōu)于它們。 論文初步探討了并行SVM訓練算法,并將遺傳算法引進到了并行SVM訓練過程中,充分地利用了SVM和遺傳算法中固有并行化特點。 論文研究工作將SVM技術(shù)用于生物數(shù)據(jù)分類并得到了滿意的實驗結(jié)果,它將使我們利用該方法解決其它生物數(shù)據(jù)的分類問題,因為生物數(shù)據(jù)既有整體上的相似性,在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于支持向量機的生物數(shù)據(jù)分析方法研究.pdf
- 面向數(shù)據(jù)挖掘的支持向量機技術(shù)研究.pdf
- 基于支持向量機的環(huán)境數(shù)據(jù)分析與處理.pdf
- 支持向量機在醫(yī)學數(shù)據(jù)分析中的應用.pdf
- 支持向量機在人口數(shù)據(jù)分析中的應用.pdf
- 支持向量機在基因表達數(shù)據(jù)分析中的應用.pdf
- 基于自組織數(shù)據(jù)分析算法的加權(quán)支持向量機.pdf
- 支持向量機語音識別系統(tǒng)的數(shù)據(jù)分析預選取算法研究.pdf
- 基于隨機森林和支持向量機的癌癥基因數(shù)據(jù)分析.pdf
- 支持向量機算法研究及在基因表達數(shù)據(jù)分析中的應用.pdf
- 基于支持向量機的公路車流量數(shù)據(jù)分析與預測模型.pdf
- 面向支持向量機的特征約簡研究.pdf
- 面向不平衡數(shù)據(jù)的支持向量機分類方法研究.pdf
- 面向非平衡數(shù)據(jù)分類的支持向量機改進算法研究.pdf
- 基于支持向量機和決策樹的電信通信數(shù)據(jù)分析與應用.pdf
- 基于支持向量機的數(shù)據(jù)挖掘技術(shù)研究.pdf
- 面向非平衡數(shù)據(jù)分類的支持向量機改進算法研究(1)
- 基于支持向量機的數(shù)據(jù)挖掘.pdf
- 基于支持向量機的工業(yè)數(shù)據(jù)挖掘技術(shù)研究.pdf
- 數(shù)據(jù)清洗和支持向量機技術(shù)研究.pdf
評論
0/150
提交評論