版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、模式分類問題廣泛存在于故障診斷、語音識別、機(jī)器視覺、文本檢索、圖像處理和生物信息學(xué)等應(yīng)用領(lǐng)域。在獲取分類任務(wù)的相關(guān)數(shù)據(jù)信息以后,模式分類的主要目標(biāo)是利用模式分類算法把待識別的對象盡可能地分配到正確的類別中。然而,實(shí)際應(yīng)用中的高維和噪聲數(shù)據(jù)始終制約著現(xiàn)有模式分類算法的廣泛應(yīng)用。此外,生物信息學(xué)領(lǐng)域中的蛋白質(zhì)結(jié)構(gòu)預(yù)測也要求設(shè)計(jì)新的算法以便有效地利用已知的蛋白質(zhì)結(jié)構(gòu)信息。
近鄰模型是機(jī)器學(xué)習(xí)領(lǐng)域中常用的分類模型之一,由于其具有非線性
2、和可擴(kuò)展性的優(yōu)點(diǎn),已經(jīng)在圖像檢索、目標(biāo)識別和機(jī)器視覺等領(lǐng)域獲得了成功的應(yīng)用?;诮從P?,本文對判別特征選擇、判別距離度量學(xué)習(xí)和判別原型學(xué)習(xí)以及生物信息學(xué)應(yīng)用領(lǐng)域的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測四個(gè)方面開展了研究,主要內(nèi)容如下:
在判別特征選擇方面,提出了兩個(gè)特征選擇算法:近鄰成分特征選擇和局部Fisher特征選擇。近鄰成分特征選擇是基于最近鄰的特征加權(quán)算法,它通過梯度上升技術(shù),最大化具有正則化項(xiàng)的近似留一法分類精度學(xué)習(xí)特征權(quán)值。該算法對
3、訓(xùn)練數(shù)據(jù)的分布沒有作任何參數(shù)假定并且可以自然地?cái)U(kuò)展到多類問題。實(shí)驗(yàn)結(jié)果表明,近鄰成分特征選擇算法可以有效地處理高維數(shù)據(jù)的特征選擇,并且對不相關(guān)特征數(shù)目的增長不敏感。局部Fisher特征選擇通過梯度優(yōu)化技術(shù),最大化訓(xùn)練數(shù)據(jù)的局部類間散布同時(shí)最小化訓(xùn)練數(shù)據(jù)的局部類內(nèi)散布,并在優(yōu)化過程中利用L1L∞正則化項(xiàng)在塊層次上稀疏化不相關(guān)或冗余特征對應(yīng)的參數(shù)向量。UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法能有效地捕獲特征間的相關(guān)性。
在判別距離度量學(xué)
4、習(xí)方面,提出了兩個(gè)基于近鄰模型的距離度量學(xué)習(xí)算法:命中丟失成分分析和快速近鄰成分分析。命中丟失成分分析首先根據(jù)訓(xùn)練樣本的最近命中(來自同樣類別的最近鄰)和最近丟失(來自不同類的最近鄰)定義間隔,然后通過同時(shí)最大化間隔和最小化每個(gè)訓(xùn)練樣本和它的最近命中的距離學(xué)習(xí)距離度量。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地處理數(shù)據(jù)可視化、全秩距離度量學(xué)習(xí)和低秩距離度量學(xué)習(xí)。快速近鄰成分分析采用局部概率分布模型確定訓(xùn)練樣本的參考點(diǎn),避免了基于全部訓(xùn)練數(shù)據(jù)隨機(jī)選擇
5、參考點(diǎn),有效地減少了學(xué)習(xí)距離度量的計(jì)算代價(jià)。通過引入核機(jī)制,其被進(jìn)一步擴(kuò)展到非線性度量學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,快速近鄰成分分析在分類精度和訓(xùn)練速度方面均優(yōu)于近鄰成分分析。
在判別原型學(xué)習(xí)方面,針對最近鄰規(guī)則較高的存儲(chǔ)和計(jì)算要求,提出了一個(gè)基于訓(xùn)練數(shù)據(jù)集自動(dòng)構(gòu)造原型并學(xué)習(xí)距離度量的大間隔最近原型分類算法。該方法首先利用歐氏距離的K均值聚類算法確定每類樣本的原型,然后通過最小化目標(biāo)損失函數(shù)學(xué)習(xí)輸入空間的線性變換。參數(shù)矩陣可以通過求解一
6、個(gè)凸半定規(guī)劃問題獲得,因此不存在局部極小值問題。實(shí)驗(yàn)結(jié)果表明,該方法能有效地改進(jìn)最近鄰的分類性能。
在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方面,研究了二級結(jié)構(gòu)的單序列預(yù)測、多序列預(yù)測和組合預(yù)測。針對單序列預(yù)測,提出了一種新的基于高斯先驗(yàn)最大熵模型的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法。針對多序列預(yù)測,基于大間隔最近鄰模型和大間隔最近原型分類模型提出了兩個(gè)二級結(jié)構(gòu)預(yù)測算法。第一個(gè)算法首先基于PSSM譜構(gòu)造特征向量,然后調(diào)用大間隔最近鄰模型學(xué)習(xí)一個(gè)用于K近鄰分類
7、的Mahalanobis距離,最后利用基于能量的規(guī)則進(jìn)行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測。第二個(gè)算法是大間隔最近原型分類算法在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測上的直接應(yīng)用。實(shí)驗(yàn)結(jié)果表明兩種算法均獲得了較好的預(yù)測精度,明顯優(yōu)于以前的近鄰算法。針對組合預(yù)測,提出了一個(gè)組合同源和非同源信息進(jìn)行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的快速近鄰算法。該方法首先利用良定義的鏈表結(jié)構(gòu)構(gòu)造包含二級結(jié)構(gòu)頻率信息的統(tǒng)計(jì)詞典集,然后組合統(tǒng)計(jì)詞典和PSSM矩陣快速地生成鄰居列表,最后利用新的基于知識的規(guī)則指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于圖嵌入的判別近鄰分析研究及應(yīng)用.pdf
- 基于判別模型的視覺跟蹤算法的研究.pdf
- 基于近鄰判別學(xué)習(xí)的人臉圖像親屬關(guān)系識別方法研究.pdf
- 基于增量學(xué)習(xí)判別模型的目標(biāo)跟蹤方法研究.pdf
- 基于K近鄰快速區(qū)域歸并的圖像分割算法研究及應(yīng)用.pdf
- 距離度量學(xué)習(xí)的理論與算法研究:核回歸、大間隔最近鄰與Fisher線性判別.pdf
- 基于云模型的路網(wǎng)交通擁堵狀態(tài)判別算法研究.pdf
- 基于判別式表觀模型的目標(biāo)跟蹤算法研究.pdf
- 基于粒計(jì)算的K近鄰多標(biāo)簽學(xué)習(xí)算法.pdf
- 基于K近鄰的分類算法研究.pdf
- 基于K-近鄰算法的資產(chǎn)定價(jià)模型與套利.pdf
- 基于k近鄰多標(biāo)簽學(xué)習(xí)的數(shù)據(jù)降維算法的研究.pdf
- 基于近鄰的聚類算法研究.pdf
- 基于近鄰分類的實(shí)例選擇算法研究.pdf
- 基于共享最近鄰的聚類算法的研究與應(yīng)用.pdf
- 基于進(jìn)化極限學(xué)習(xí)機(jī)的特征加權(quán)近鄰分類算法.pdf
- 奇異模型學(xué)習(xí)算法的研究與應(yīng)用.pdf
- 基于在線線性判別學(xué)習(xí)模型的垃圾郵件過濾研究.pdf
- 基于樣本選擇的近鄰分類算法研究.pdf
- 基于數(shù)據(jù)轉(zhuǎn)化的k近鄰查詢算法研究.pdf
評論
0/150
提交評論