版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、蛋白質出現(xiàn)在所有生物中,是一類重要的生物大分子,它們在幾乎所有生物過程中起了關鍵的作用。蛋白質由氨基酸構成,氨基酸按序連接形成蛋白質的初始結構。蛋白質二級結構的基本元素為α螺旋、β折疊層、卷曲螺旋和轉角。轉角是結構化的基序,基序中兩個殘基的α原子被幾個肽鍵(通常是1到5個)分隔,它們之間的距離小于7A°,相應的殘基不能形成規(guī)則的二級結構元素如α螺旋或β折疊層。不同的轉角按照兩個端殘基之間的距離分類。終端殘基被α轉角中的4個肽鍵、β轉角中
2、的3個肽鍵、γ轉角中的2個肽鍵、δ轉角中1個肽鍵和π轉角中的5個肽鍵分隔。β轉角是在蛋白質中發(fā)現(xiàn)的最常見的轉角結構形式,因為蛋白質結構中,大約25%的氨基酸在它們當中。因為涉及到轉角形式的相互作用大部分是局部的,所以β轉角在鏈熵中能勝任初始的繁殖結構卻沒有大的損失,這使β轉角在蛋白質折疊中變得很重要。這個觀點與層次折疊模型是一致的。在層次折疊模型中,某些包含具有高的轉角傾向的殘基的轉角充當了結構形成的活動成核點,這些成核點源自于角落殘基
3、并向側邊的β絞絲傳播。β轉角在蛋白質的折疊反應中起來兩個不同的作用:它們或者是主動折疊和作為起始位點起作用,或者是僅僅在其他區(qū)域發(fā)育完成之后形成的被動折疊元素。當β折疊作為被動折疊起作用時,其他折疊事件如肽鏈坍塌或穩(wěn)定的第三位的相互作用促進了結構的形成,而且,轉角的形成僅僅是來自蛋白質的其他區(qū)域結構鞏固的結果。這些不同的作用可能來自,在形成不同蛋白質的原始狀態(tài)的過程中,各種相互作用的相對重要性。
通過固有的偏向于φ,ψ空間以及
4、側鏈包裹相互作用和局部環(huán)境,轉角能影響蛋白質的原始狀態(tài)的的穩(wěn)定性。因為β轉角通常發(fā)生在蛋白質的暴露面,所有它們很適合參與配體結合、分子辨識、蛋白質-蛋白質相互作用、蛋白質-核酸相互作用,因而,調節(jié)了蛋白質功能和分子間的相互作用;另外,它們是頻繁的翻譯后修飾點,如被用于調節(jié)相互作用的磷酸化作用和糖基化。因此,開發(fā)精確的β轉角測定方法是很有價值的。
x射線晶體學和核磁共振都越來越多地運用于蛋白質結構預測。而結構測定并不是一個直線前
5、進的過程,X射線結晶學受限于蛋白質形成晶體的難度,核磁共振只適用于相對較小的蛋白質分子。兩種方法在時間、表現(xiàn)形式和蛋白質的大小方面受到限制。通過全基因組序列測定了大量的蛋白質序列,然而確定相應的蛋白質結構卻要緩慢得多。因而,計算方法是必要的。目前,有幾種用于β轉角測定的計算方法,在預測質量方面有很大的挑戰(zhàn)和改進的空間。
在本文中,我們整合機器學習和基于統(tǒng)計的方法在蛋白質二級結構中預測β轉角。我們考慮在人工神經網絡中使用統(tǒng)計空間
6、降維的方法增加其在蛋白質二級結構預測中的有效性,并且產生與目前的其他方法的可比較的結果。我們也公式化了邏輯回歸模型和使用了核心邏輯回歸預測β轉角。這兩種技術通常是不用于蛋白質二級結構和β轉角預測的研究領域的。最后,我們提供了一個混合方法,它將支持向量機和邏輯回歸結合為一個強有力的框架,這種方法在蛋白質的β轉角預測中運行良好。
因為訓練神經網絡是一個耗時的過程,尤其是當特征數(shù)很大時。我們開始使用主成分分析,它是一種數(shù)學過程,在蛋
7、白質二級結構預測的神經網絡中將相關的變量轉換為順序的無關的蛋白質。主成分分析能用于降低共軛梯度算法在預測蛋白質二級結構時訓練神經網絡的計算費用。共軛梯度算法是一種搜索方法,能用于在共軛方向上最小化網絡輸出錯誤。訓練神經網絡是為了識別位于已知的二級結構中的氨基酸的模式和將這些模式與不在二級結構中的其他模式區(qū)別開來。神經網絡的輸入層編碼氨基酸序列中的一個移動窗口和預測窗口中的中心殘基??赡艿拇翱诘拇笮?,7,9,11,15,17,19和2
8、1?;诙壗Y構的統(tǒng)計相關性,預測點的任意一邊最多有8個殘基,因此最大的窗口大小設為17。
單序列信息作為神經網絡的輸入特征。單序列信息中,每個窗口位置中的每個氨基酸被一個有20個輸入的向量編碼,每個輸入對應在那個位置上的每個可能的氨基酸類型。在每個向量中,對應在那個窗口位置上的氨基酸的類型的輸入被設置為1,所有其他輸入被設置為0。特定位置打分矩陣PSSMs也被考慮為輸入特征。在特定位置打分矩陣中,每行對應一個氨基酸殘基?;?/p>
9、具體的窗口尺寸的神經網絡的輸入向量形成了對應于在具體窗口位置上的特定的氨基酸的特定位置打分矩陣的行。
我們嘗試過大小為17和15的不同滑動窗口,以及沿著序列移動的13個氨基酸殘基。選擇窗口大小為15是依據(jù)關于蛋白質二級結構的最新研究,此研究推斷,提供高精度的最優(yōu)窗口大小為15。選擇窗口大小為17是由于二級結構的統(tǒng)計相關性,即預測點任意一邊最多有8個殘基。選擇窗口大小為13,則是因為檢測當選擇的窗口大小小于15時,查看預測效果是
10、否會下降。每一個窗口中的序列,以使用SCG方法識別二級結構的神經網絡訓練方法的輸入的方式,被讀取和使用。神經網絡模型包含3層處理單元:輸入層,輸出層和隱蔽層。輸入層讀取序列,每個氨基酸殘基一個單元,并且向在該位點的氨基酸傳遞信息。
當窗口大小為17時,輸入層包含R=17*20個輸入單元。隱蔽層對輸出信號進行加權,并發(fā)送到3個輸出單元,分別表示預測的α螺旋、β折疊和循環(huán)或窗口中央次級氨基二級結構的卷曲。當輸出信號接近1表示預測的
11、氨基酸擁有相應的結構,弱信號接近0時則沒有預測。
NN的輸出層由3個單元構成,每一個用于所考慮的結構狀態(tài),這是使用一個二進制編碼的方案。用來表示氨基酸二級結構的目標矩陣,首先從與滑動窗口對應的所有可能子序列的結構分配的數(shù)據(jù)獲取。然后,考慮每個窗口的中央位置,并使用二進制編碼,100α螺旋,010β折疊,001循環(huán),轉換相應的結構分配。
使用主成分分析時,被提取的成分數(shù)等于被分析的變量數(shù)。因此,有必要確定有多少個成分是
12、真正有意義和值得保留的。每個主成分表示原始變量的線性組合,其中第一主成分被定義為變量的所有線性組合之間的最大樣本方差的線性組合。接下來的主成分,代表了解釋最大樣本方差的線性組合。由于主成分(PCs)之間不相關并且有序,那么開始的少數(shù)主成分能夠說明總體方差的最大數(shù)目,或者換句話說,只有開始的少數(shù)成分可以說明方差的意義,而以后的成分則只是說明不重要的方差。有一些通用的規(guī)則來選擇保留多少開始的主成分。但是,被解釋方差的累積比例(例如95%)應
13、該用于決定保留多少開始主成分。在數(shù)據(jù)集中,對變量影響最小的成分將被去除。
為了預測蛋白質二級結構,我們在MATLAB中編寫代碼建立一個神經網絡。數(shù)據(jù)集中60%用來訓練,20%驗證,20%作為測試。通過減少數(shù)據(jù)維度的方式,我們比較了不同情況下對神經網絡進行訓練所需的時間。此外,我們比較使用PCA減少數(shù)據(jù)維度前后的預測精度。實驗結果顯示,在RS126的蛋白質序列中,PCA能夠減少訓練神經網絡所需的時間,但并不影響預測精度。
14、 其次,我們提出了邏輯回歸和核心邏輯回歸方法預測β轉角。用于評價預測性能的指標包括測試檢驗一致性的指標和用于評價β轉角預測的指標。具體包括Qtotal(預測精確度)、Qpredicted(正確預測的概率,指在被預測的轉角中正確預測到的轉角的百分率,也稱為陽性預測值)、Qobserved(敏感度或覆蓋率,指觀察到的β轉角中被正確預測到的β轉角的百分率,或者全體被正確預測到的陽性樣本的分數(shù))和MCC(馬修相關系數(shù))。我們首先將邏輯回歸用于
15、不同的特征集合。然后,我們使用核心邏輯回歸(由于其計算要求,以前還沒有被用于預測蛋白質二級結構和β轉角。)。然而,不像支持向量機和神經網絡,核心邏輯回歸基于最大似然參數(shù)(它是額外的預測類標識)產生后驗概率。FS-KLR是適合大數(shù)據(jù)集的核心邏輯回歸的快速實現(xiàn),它能用于有效地在蛋白質中預測β轉角,產生的結果比目前的其他方法要好。
我們在BT426數(shù)據(jù)集上測試了LR模型。BT426數(shù)據(jù)集包含了426個非同源的蛋白質鏈。一些研究人員已
16、經用這個數(shù)據(jù)集作為性能評價的黃金數(shù)據(jù)集。這個數(shù)據(jù)集包括的蛋白質鏈的結構由X射線結晶學(分辨率小于2.0 A°或更好)確定。每條鏈包含至少一個β轉角區(qū)域。在全部23580個氨基酸中,24.9%氨基酸被指派在β轉角的位置。數(shù)據(jù)集中沒有序列共享了超過25%的序列標識。我們首先用PSSM和蛋白質物理和化學數(shù)據(jù)屬性作為特征。查詢序列程序來自國家生物技術信息中心(NCBI)非冗余序列數(shù)據(jù)庫的本地拷貝,使用缺省參數(shù),程序運行時進行三次迭代。我們使用V
17、B.net完成該任務,其中參數(shù)被傳遞給一個自動運行于psiblast程序的本地拷貝的函數(shù)。我們在PSSM特征矩陣(它隨氨基酸序列移動)上使用滑動窗口大小為7的氨基酸殘基。該窗口大小的選擇與Shepherd等人的一致。它們發(fā)現(xiàn)當窗口大小為7或者9時,β轉角預測為最優(yōu)。使用窗口大小為7時,則有140(7*20)個參數(shù)(表示PSSM中行的元素),和42(2*21)個參數(shù)(表示窗口中殘基之間的物化反應)。用來表示PSSM和物理和化學相互作用的變
18、量應為獨立變量,總共140+42=182個特性,并且需要預測的參數(shù)個數(shù)為183(包含攔截)。數(shù)據(jù)元素的個數(shù)依賴于用來預測參數(shù)的序列個數(shù),但是應大于特征的數(shù)目。在這種情況下,數(shù)據(jù)中有足夠的信息評估最佳擬合數(shù)據(jù)的參數(shù)的唯一值。取得的結果不是我們所需要的,所以我們試著使用LR包的整體效果,程序運行如下:
(i)初始化數(shù)據(jù)集T
(ii)從數(shù)據(jù)集中采用可替代的方式(其中的一些可能被反復抽到,而另外一些可能根本就不會被抽到)隨機
19、抽取樣本(自舉)
(iii)使用此子訓練數(shù)據(jù)集訓練分類器
(iv)重復以上步驟K次,得到K個分類器
(v)使用聚類方法聚類K個分類器
我們首先采用替代的方法從原數(shù)據(jù)集中建立了100個隨機樣本,然后隨機將數(shù)據(jù)隨機地劃分到訓練集70%和測試集30%。通過訓練集,采用最大似然估計(MLE)對LR參數(shù)進行估計。我們觀測的最后預測值,作為100樣本預測的平均值。
使用LR包的總體效果仍然不是很好,
20、因此我們使用PSSM和預測的二級結構作為特性,代替物理和化學屬性。但結果仍然不太好,于是我們使用PSSM和被預測的二級結構作為特征而不是物理和化學屬性。被預測的二級結構特征來自PROTEUS,包含三種結構狀態(tài):螺旋、絞股、卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。此外,滑動窗口大小為7,殘基被使用在由PSSM和預測的二級結構所組成的矩陣上,并對中央殘基進行了預測。當使用的窗口大小為7時,有140(7*20)個參數(shù),表示P
21、SSM行中的元素,有21(3*7)個參數(shù),表示預測二級結構,變量表示PSSM,獨立變量表示預測的二級結構,總共有140+21=161個特征。需要預測的參數(shù)個數(shù)162(包含攔截)個。
使用被預測的二級結構特征和PSSM導致了預測性能的大幅度改善。獲得的Qtotal、Qpredicted、Qobserved和MCC分別是80.93%、64.17%、53.19%和0.46。這意味著蛋白質物理和化學屬性不是有效的特征,不能改善二級結構
22、預測的性能,但是用PSSM作為特征對預測β轉角非常有效。我們的方法被用于和其他類似的方法(如支持向量機和神經網絡)進行比較。與其他方法相比,LR方法在解釋能力、顯著性和時間方面具有優(yōu)勢。
除了426個非同源蛋白質的統(tǒng)一數(shù)據(jù)庫(BT426),547個蛋白質序列數(shù)據(jù)庫(BT547)和823個蛋白質數(shù)據(jù)庫(BT823)也被用于評價我們的方法的性能。這些數(shù)據(jù)集用于訓練和測試COUDES。被用的特征包括PSSMs和二級結構信息。
23、 針對二級結構信息特征,四個二級結構預測方法被用于所有蛋白質鏈。這四個預測方法是PSIPRED、JNET、TRANSEC和PROTEUS。二級結構被預測為三種狀態(tài):螺旋、絞股和卷曲。螺旋、絞股、卷曲被分別編碼為100、010和001。二級結構信息特征按如下方式組織:(1)一個二進制值表示一個中心殘基的給定二級結構預測方法的預測值,例如,如果PSIPRED預測中心氨基酸為螺旋,JNET預測它為卷曲,TRANSEC預測它為螺旋,以及PRO
24、TEUS預測它為螺旋,那么二進制值為{100001100100},使用該組織的特征總數(shù)為12。(2)可信度值來自使用四個預測方法的中心殘基。可信度得分除以10,得到正規(guī)化的單位區(qū)間,使用該組織的特征總數(shù)為4。(3)一個二進制值表示使用中心和兩個鄰居殘基的四個預測方法預測二級結構的特定配置。Here we have fourpatterns{1,2,3,4}.有四種模式{1,2,3,4}。如果使用特定方法預測的二級結構為卷曲{001},那
25、么模式1的二級結構為CCC,模式2、3和4的分別為CCX、XCC和XCX,此處X={E,H}?;谶@個組織的特征總數(shù)為48(4個模式*3個二級結構*4種預測方法)。(4)給定二級結構中的殘基數(shù)和四個預測方法的窗口尺寸之間的比率,基于該組織的特征數(shù)為12(3個二級結構*4個預測方法)?;诙壗Y構信息的特征總數(shù)為76。使用該組織的動機來自文獻。被預測的二級結構信息被添加到PSSMs特征中?;赑SSMs和二級結構信息的特征總數(shù)為216。類
26、似文獻,基于信息增益和卡方的特征選擇方法被用于將特征數(shù)減少到90個。
FS-KLR通過選擇樣本尺寸m使處理變得稀疏,此處m遠小于核心矩陣維數(shù)。被選擇的樣本尺寸m來自特征矩陣,命名為原型向量(PVs)。這些PVs向量可以使用k中心聚類方法進行篩選。文獻觀察到Nystrom低階近似法嚴重地依賴于使用界標點編碼樣本集合導致的量化誤差,這是我們使用k中心聚類方法的原因。這意味著人們能簡單地使用來自k中心(例如k-均值)算法的聚類,k中
27、心算法能找到量化誤差的局部最小值。使用k中心性聚類的PVs選擇方法遇到了問題,即它們選擇異常值作為原型。PVs向量數(shù)相當小,被選中代表非異常值和異常值數(shù)據(jù)的原型分式不平衡,因而分類性能不是最佳的。當PVs數(shù)增加時,KLR的性能也上升。因而,考慮移除異常值能導致更稀疏的模型。使用牛頓信任區(qū)域算法的原始空間解決了稀疏KLR問題。與其他候選算法相比,該算法產生了最好的性能。每次迭代的收斂速度和代價在低成本近似方面形成均勢,因為牛頓步驟將在算法
28、的開始被采用以及算法終結于快速收斂的全牛頓方向步驟。
當m<=n時,從特征矩陣選擇的成分數(shù)(m)會影響預測的精度和MCC,相對大或小的m值產生的性能不好。為了選擇向量的最佳數(shù)量,交叉驗證被采用,從相對較小的m開始,并逐漸增加m的值,直到再增加向量時不會改進分類的運行效果為止。
為了進一步提高FS-KLR的性能,我們采用狀態(tài)變化規(guī)則。在此規(guī)則中,我們考慮β轉角發(fā)生在含有至少有4個相鄰殘基的基團中。通過對FS-KLR進行
29、預測的結果分析之后,狀態(tài)變化規(guī)則(它使預測更像β轉角)推導如下:
1.將分離的非轉角預測轉化為轉角;
2.將分離的轉角預測轉化為非轉角預測;
3.將與兩個分離的轉角預測相鄰的殘基轉化為轉角;
4.如果有分離的3個轉角預測,那么將KLR概率最高的相鄰的非轉角預測轉化為轉角。
以上的規(guī)則必須按順序執(zhí)行。使用這些規(guī)則后,我們能夠得到更好的結果,其中MCC從0.48增加到0.50
當和
30、目前使用二級結構信息和PSSMs作為特征的其他方法比較時,使用非冗余數(shù)據(jù)集的經驗評價顯示FS-KLR提供了優(yōu)秀的結果。我們使用FS-KLR方法在BT426數(shù)據(jù)集上獲得的Qtotal和MCC分別為80.7和0.50??v觀以前的有關β轉角的研究,基于機器學習方法的預測器強調選擇適合的特征以改善預測性能。二級結構和PSSMs被廣泛用于預測并被證明是最有幫助的特征。使用這些特征,F(xiàn)S-KLR獲得了與支持向量就類似的結果。為了設計能用于β轉角預測
31、的方法,有四個方面需要關注。這包括:(1)數(shù)據(jù)集的大小;(2)需要處理變長輸入樣本;(3)需要有概率結果;(4)需要執(zhí)行多級分類。當數(shù)據(jù)集很大(如β轉角數(shù)據(jù))時,人們忽略了最后兩個關注點,而關注選擇有效處理大數(shù)據(jù)集的分類器。因為支持向量機方法被設計為能處理大規(guī)模數(shù)據(jù)集,因此,這里方法已經變成預測β轉角的首選。然而,支持向量機不能解決兩個直接的關注點。盡管KLR對最后兩個關注點提供了優(yōu)質解,但是它不適合大規(guī)模數(shù)據(jù)集,所以不能用于大規(guī)模數(shù)據(jù)
32、集如β轉角數(shù)據(jù)的分類。因為需要β轉角類型的多級分類,所以最后兩個關注點對β轉角分類是很重要的。FS-KLR將KLR的應用擴展到大規(guī)模數(shù)據(jù)集。這種方式能解決前述的所有關注點。
最后,我們提出了一種預測β轉角的混合方法,它整合了支持向量機和邏輯回歸方法。我們使用特定位置打分指標和被預測的二級結構作為特征。PROTEUS用來預測二級結構的特征??梢允褂玫鞍踪|形狀串聯(lián)的譜預測服務者(DSP)預測形狀串聯(lián)。除了8種狀態(tài)之外,DSP定義了
33、形狀N,其中φ角和ψ角沒有定義,或者沒有確定部分序列的結構。形狀串聯(lián)特征編碼為:S(100000000),R(010000000)..., N(000000001)。
因為β轉角大約占全局蛋白質殘基的25%,β轉角和非β轉角的比例是1∶3。因而用于β轉角預測的訓練集是不平衡的集合。在實驗中,我們發(fā)現(xiàn),如果非β轉角集合被適合的聚類算法劃分為三個子集,那么每個非β轉角子集和β轉角集合將形成大致平衡的訓練集。平衡的訓練集更可能被分隔
34、在特征空間中。這是因為子集中非β轉角樣本的分布是集中而緊湊的。換句話說,β轉角集合能被不同的超平面從每個非β轉角聚類中分離。這意味著當使用每個非β轉角聚類與β轉角構建局部支持向量機時,有希望獲得好的性能。但是,單獨使用這些支持向量機的每一個卻不一定是一個好的分類器。這暗示,通過有效地組合這些支持向量機,構建一個比訓練全體數(shù)據(jù)的支持向量機更好的分類器是可能的。尤其是一個局部支持向量機分類器能被構建用于每個子訓練集,局部支持向量機將不會受全
35、體訓練集的異構性的影響。為了勝過訓練全體數(shù)據(jù)的支持向量機,我們需要有效地組合這些局部支持向量機為全局支持向量機,并保留它的局部優(yōu)勢。多少表決是組合幾個分類器的方法之一,但是,它的主要問題是不能給每個方法加權。LR模型能整合局部支持向量機分類器并允許我們利用統(tǒng)計模型論的優(yōu)勢尋找每個局部分類器的最優(yōu)權值。使用聚類模型的動機來自Yi Chang的工作。在該文獻中,YiChang使用局部線性支持向量機分類器分類被選核定義的特征空間中的數(shù)據(jù)。
36、r> 我們使用混合方法中的k-均值聚類算法劃分非β轉角為三個子集,每個子集結合β轉角類以創(chuàng)建一個子訓練集。三個支持向量機分類器被使用,每個對應一個子集。我們用邏輯回歸模型聚合了這些支持向量機的結果。這三個支持向量機將不會直接用于預測,但是它們將用于變量生成器。在訓練和預測階段,這些模型是不變的,全部樣本進入三個模型。三個模型的分離超平面樣本的符號距離被計算并保存在N*3為向量d中,此處N是實例數(shù)目。向量d將被用于作為LR模型的新的特征
37、向量,這將平衡三個模型的響應以及計算預測概率。
LR預測模型的部件是變量,它們應該被仔細選擇以便能準確預測但又不過度擬合數(shù)據(jù)。在模型選擇中,有兩個矛盾的目標。(1)擬合好數(shù)據(jù)是復雜的。(2)解釋應該簡單。為了選擇LR模型,我們首先考慮被評估系數(shù)的相關性。如果兩個變量高度相關,我們在模型中不必兩個都需要。單方變量分析被用于識別重要的變量,在LR模型中一個變量被擬合一次,然后,擬合被分析。特別地,我們考慮評估系數(shù),標準誤差、系數(shù)重
38、要性的似然比檢測。我們利用在單方變量分析中選擇的變量按照如下過程擬合LR:
我們使用Wald統(tǒng)計在LR模型中驗證每個變量的重要性。
我們比較了每個變量的系數(shù)和僅包括一個變量的模型的系數(shù)。
任一表現(xiàn)為不重要的變量都被評估,一個新的模型被擬合。新模型被檢驗是否與老模型有重要區(qū)別,如果是,那么被刪除的變量就是重要的。
刪除、重新擬合和驗證過程被反復進行,直到所有重要變量被包括在模型中。
我們試
39、著擬合了線性LR模型,但是發(fā)現(xiàn)預測誤差很大,于是,我們考慮用分式多項式進行指數(shù)轉換。
每一對變量之間的一列可能的相互作用被創(chuàng)建。在包括了所有主要影響的模型中,這些相互作用每次添加一個,用似然比檢測評價它的重要性。重要相互作用被添加到主要影響模型中,它的擬合情況用Wald測試評估,LR測試用于相互作用術語,任一非重要相互作用被采用。
分式多項式被用于使LR模型適合最終的結果變量(它是β轉角/非轉角反應)。在我們的混合模
40、型中,這個變量依賴于邏輯回歸模型中三個支持向量機分類器的結果。三個支持向量機分類器的結果由向量d=(d1,d2,d3)表示。自然開始點即直線模型b0+b1d1+b2d2+b3d3或b0+dB(此處B是參數(shù)向量)首先被測試是否適合。為了改善擬合效果,我們研究了其他模型。我們通過擬合一階分式多項式尋找非線性關系。最佳次方轉換dpi被發(fā)現(xiàn),指數(shù)p是從候選集合{-2,-1,-0.5,0,0.5,1,2,3}中挑選出來的,d0指logd。集合包含
41、直線(非轉換)p=1。變量di包含非正值,因而我們將其轉換為正值。這使對數(shù)和負指數(shù)轉換變得可用。包含更多的指數(shù)通常僅僅在擬合模型中提供了輕微的改善。尤其在包括大的負指數(shù)如-3時,會出問題,個體的極端觀察將對擬合產生嚴重影響。一級分式多項式對我們的數(shù)據(jù)提供的擬合情況不令人滿意,所以我們考慮二級分式多項式。我們使用封閉測試程序,它通過選擇前面提到的集合中的指數(shù)變換p和q首先確定最佳擬合二級多項式。因為數(shù)學限制,當p=q時,模型中的變量di被
42、寫為bjdpi+bkdpilog(di)形式。那些組合中的最佳擬合被定義為最大似然或相當于最小偏差。此處用MRP包(它是一組R函數(shù)集合,目的是要分式多項式建模回歸模型上的連續(xù)變量的影響)查找指數(shù)p和q的組合中的最佳擬合。MFP將序列的封閉測試選擇程序用于單個的連續(xù)變量。
用于β轉角預測的方法使用不同的PSSMs和PSS組織。一些研究者在PSSMs上使用滑動窗口,然后,增加PSS。另外一些研究人員采用PSSMs和PSS。在我們提
43、出的方法中,對兩種方法都進行了測試。結果顯示,使用基于PSSMs和PSS的滑動窗口的H-SVM-LR方法比僅使用基于PSSMs的滑動窗口,然后再增加中心氨基酸的PSS的方法好得多。
當使用PSSMs和PSS作為特征時,混合方法在BT426數(shù)據(jù)集上獲得的MMC是0.56,Qtotal是82.87%。這些值比現(xiàn)存其他最好的方法獲得的相應值都要高。我們的方法在數(shù)據(jù)集BT547和BT823上獲得了最高的MCC和Qtotal值。另外,當
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于統(tǒng)計建模方法的蛋白質結構預測研究.pdf
- 基于機器學習的蛋白質熱點殘基預測方法的研究.pdf
- 基于機器學習的蛋白質結構類預測與質量評估.pdf
- 7965.基于序列的蛋白質結構預測的機器學習模型
- 基于機器學習的蛋白質折疊模式預測研究.pdf
- 蛋白質結構預測方法研究.pdf
- 基于機器學習的蛋白質類別及蛋白質-配體相互作用預測研究.pdf
- 機器學習在蛋白質結構和功能預測中的應用研究.pdf
- 整合模板比對和機器學習方法的蛋白質折疊分類預測.pdf
- 14956.基于詞頻統(tǒng)計編碼和流形學習的蛋白質二級結構預測方法研究
- 基于序列和結構特征的蛋白質結合自由能預測.pdf
- 蛋白質結構預測
- 基于機器學習的多定位點蛋白質亞細胞定位預測方法研究.pdf
- 基于序列特征的蛋白質功能類預測方法研究.pdf
- 基于空間約束的蛋白質結構預測方法概述
- 蛋白質結構預測方法學研究.pdf
- 無序蛋白質結構預測方法研究.pdf
- 蛋白質-蛋白質復合物結構預測.pdf
- 基于同源建模的蛋白質結構預測方法的研究.pdf
- 基于濾波理論和特征統(tǒng)計的蛋白質編碼區(qū)預測算法研究.pdf
評論
0/150
提交評論