2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩149頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫、傳感器、基因組學(xué)和蛋白質(zhì)組學(xué)的發(fā)展,數(shù)據(jù)供給能力和數(shù)據(jù)分析能力間的矛盾日益突出,迫切需要一種能夠?qū)?shù)據(jù)進(jìn)行深層次加工的自動化技術(shù),數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。 統(tǒng)計學(xué)習(xí)理論(SLT)是機器學(xué)習(xí)領(lǐng)域的一個新的理論體系,它非常適用于解決有限樣本條件下的機器學(xué)習(xí)問題。支持向量機(SVM)是基于統(tǒng)計學(xué)習(xí)理論發(fā)展而來的,它通過Mercer核函數(shù)在高維空間中進(jìn)行分類計算。由于絕大多數(shù)生物序列分析問題與類型識別問題都具有小樣本

2、、隨機性強、高噪聲、特征提取困難等特點,所以統(tǒng)計學(xué)習(xí)理論特別適合解決該領(lǐng)域的問題。但是針對具體的數(shù)據(jù)類型和研究對象需要采用不同的學(xué)習(xí)策略,為此本文作了以下的工作:首先借助統(tǒng)計學(xué)習(xí)理論中的相關(guān)結(jié)論,結(jié)合實際的應(yīng)用,分析和改進(jìn)了現(xiàn)有的加權(quán)SVM算法以解決生物序列類型識別中的多類樣本不平衡問題;然后將特定概率模型與字符串核相結(jié)合并應(yīng)用到生物序列特定位點預(yù)測的問題;其次研究了流形上學(xué)習(xí)的相關(guān)理論,給出算法LLE的相關(guān)改進(jìn);分析了流形上的半監(jiān)督學(xué)

3、習(xí)算法Hessian-SVM并與Laplacian-SVM進(jìn)行了比較;最后,使用元胞自動機方法,以可視化的方式分析生物序列的統(tǒng)計特性,并應(yīng)用到病毒序列分析中。 在開始部分,本文概述了統(tǒng)計學(xué)習(xí)理論中與數(shù)據(jù)挖掘相關(guān)的部分結(jié)論。介紹了生物信息學(xué)的發(fā)展現(xiàn)狀和特點,闡述了對它們進(jìn)行研究的意義。 基于該方法的學(xué)習(xí)還是一門嶄新的技術(shù),無論是理論和實際應(yīng)用中,都有很多問題亟待解決。 首先利用加權(quán)支撐向量機解決了進(jìn)行生物序列類型預(yù)

4、測時的不平衡樣本問題。 生物序列是本文的主要研究對象,實踐上經(jīng)常需要對序列中某一特定區(qū)域或位點做出預(yù)測。針對這一數(shù)據(jù)類型和應(yīng)用,本文將子位點耦合概率模型與字符串核相結(jié)合以預(yù)測序列的特定位點。 生物信息學(xué)中的一大類問題可以概括為:首先根據(jù)先驗知識提取大量與預(yù)測任務(wù)相關(guān)的特征構(gòu)成特征向量,然后在特征空間中進(jìn)行預(yù)測。對于許多的實際問題,可以認(rèn)為這些樣本點(特征向量)在原始特征空間中構(gòu)成了一個流形,進(jìn)行預(yù)測的過程實質(zhì)上就是在該流

5、形上進(jìn)行函數(shù)學(xué)習(xí)的過程。首先介紹了基于流形學(xué)習(xí)的一些基本的概念和結(jié)論,并針對其特例LLE進(jìn)行了算法上的改進(jìn),并將算法SLLE成功地應(yīng)用到膜蛋白序列特征提取的問題中。然后,利用標(biāo)號樣本和無標(biāo)號數(shù)據(jù)(labeledandunlabeleddata)構(gòu)成的流形分布特征,分析了流形上的半監(jiān)督學(xué)習(xí)算法Hessian-SVM,以充分利用無標(biāo)號數(shù)據(jù)提供的信息來提高精度,并與Laplacian-SVM進(jìn)行了比較。 針對一維的RNA序列,用元胞自

6、動機的不同規(guī)則將一維的RNA序列映射為二維圖譜,分析圖譜的特征可以發(fā)現(xiàn)SARS序列與其他冠狀病毒序列生成的圖像有明顯的不同。分析產(chǎn)生這種不同的原因,發(fā)現(xiàn)在特定區(qū)域具有不同的組成特征是生成不同圖像特征的根本原因。利用該組成特征可以用來區(qū)分SARS序列與非SARS序列,并可應(yīng)用到實驗室研究和SARS病癥診斷上。 在生物信息的研究中,網(wǎng)絡(luò)已日益成為學(xué)術(shù)研究和交流的平臺,我們在網(wǎng)絡(luò)上給出與本研究相關(guān)的服務(wù)和資料。 本文的創(chuàng)新體現(xiàn)

7、在:1.給出LLE算法的詳細(xì)推導(dǎo)過程,證明該算法在保留局部信息的意義下是最優(yōu)的,給出其有監(jiān)督形式SLLE和若干改進(jìn),并提出將非線性特征提取技術(shù)應(yīng)用到膜蛋白類型預(yù)測的問題中; 2.將子位點耦合概率模型與字符串核相結(jié)合,以預(yù)測生物時間序列的特定位點;3.用元胞自動機的不同規(guī)則將一維生物序列映射為二維圖譜,通過分析圖譜的特征以發(fā)現(xiàn)生物序列之間的統(tǒng)計特性并分析關(guān)聯(lián)影響; 4.利用加權(quán)SVM解決多類訓(xùn)練樣本集嚴(yán)重不均衡造成的問題;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論