蛋白質(zhì)相互作用文獻(xiàn)挖掘方法、注釋體系及挖掘平臺研究.pdf_第1頁
已閱讀1頁,還剩95頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)相互作用(Protein-Protein Interaction, PPI)是細(xì)胞中一類極其重要的生物分子活動,這類活動參與細(xì)胞生命周期各個(gè)生物學(xué)過程。對其研究不僅有助于我們認(rèn)識生命活動更深的層次,同時(shí)對臨床疾病的診斷和治療也具有重要意義。隨著生命科學(xué)研究的發(fā)展,研究成果文獻(xiàn)也日益增多。這些文獻(xiàn)中含有大量的PPI知識以及PPI最新的研究發(fā)現(xiàn)。然而傳統(tǒng)的手工閱讀文獻(xiàn)方式已經(jīng)難以及時(shí)、高效地收集和整理這些信息,從而使得分子生物學(xué)家的研

2、究工作變得越發(fā)困難,成為人們面臨的一大挑戰(zhàn)。采用自動化的挖掘方法從文獻(xiàn)中獲取蛋白質(zhì)相互作用信息并進(jìn)行信息結(jié)構(gòu)化存儲和展示是解決這一難題的有效途徑。然而目前蛋白質(zhì)相互作用自動挖掘研究領(lǐng)域仍存在不少不足之處:蛋白質(zhì)相互作用關(guān)系挖掘方法性能仍需進(jìn)一步提高;缺乏合理的描述蛋白質(zhì)相互作用的注釋體系,限制了蛋白質(zhì)相互作用重要功能注釋信息的深入挖掘;缺少滿足批量化數(shù)據(jù)處理需求的蛋白質(zhì)相互作用輔助挖掘平臺以及對文獻(xiàn)挖掘結(jié)果進(jìn)行結(jié)構(gòu)化存儲和展示的蛋白質(zhì)相

3、互作用知識庫等等。針對這一系列問題,我們提出本課題研究目標(biāo):在蛋白質(zhì)相互作用關(guān)系挖掘方法提升基礎(chǔ)上,進(jìn)一步構(gòu)建蛋白質(zhì)相互作用本體用于挖掘蛋白質(zhì)相互作用注釋信息;同時(shí),基于建立的蛋白質(zhì)相互作用挖掘方法開發(fā)適合當(dāng)前需求的蛋白質(zhì)相互作用挖掘平臺,設(shè)計(jì)適合存儲和展示文獻(xiàn)挖掘結(jié)果的蛋白質(zhì)相互作用知識庫。
  首先,我們建立了對文獻(xiàn)數(shù)據(jù)進(jìn)行蛋白質(zhì)相互作用關(guān)系挖掘的支持向量機(jī)(Support Vector Machines, SVM)方法。該方

4、法整合四種有效句子特征,即關(guān)鍵詞特征、詞性特征、邏輯特征以及依存句法特征,并對這些特征進(jìn)行組合優(yōu)化研究。在LLL05測試語料上,基于SVM方法取得了準(zhǔn)確率為81.8%,召回率為96.4%和F值為88.5%的良好效果。方法的效果優(yōu)于當(dāng)前在同一測試集上最好方法。
  然后,我們構(gòu)建了蛋白質(zhì)相互作用功能注釋體系——蛋白質(zhì)相互作用本體(PPI Ontology)。為了更好地挖掘蛋白質(zhì)相互作用注釋信息,我們從蛋白質(zhì)相互作用本質(zhì)——生物分子事

5、件的角度出發(fā),提出蛋白質(zhì)相互作用本體框架,包含蛋白質(zhì)相互作用發(fā)生時(shí)間、地點(diǎn)、發(fā)生方式、結(jié)果以及證據(jù)等方面信息。通過這個(gè)框架明確了蛋白質(zhì)相互作用信息的范疇,通過重用現(xiàn)有相關(guān)本體以及重新構(gòu)建蛋白質(zhì)相互相互作用類型本體,整合得到了包括相互作用參與者的角色及狀態(tài)、生物學(xué)過程、亞細(xì)胞定位、相互作用類型、生物學(xué)功能以及檢測方法六個(gè)部分在內(nèi)的蛋白質(zhì)相互作用本體。該本體在BC-PPI測試語料集以及人類肝臟相關(guān)文獻(xiàn)蛋白質(zhì)相互作用注釋信息挖掘應(yīng)用上取得了較

6、好效果。
  進(jìn)一步,我們在構(gòu)建的蛋白質(zhì)相互作用挖掘方法基礎(chǔ)上,開發(fā)了蛋白質(zhì)相互作用文獻(xiàn)挖掘平臺(PPICurator)。該平臺考慮了當(dāng)前批量化文獻(xiàn)及蛋白質(zhì)數(shù)據(jù)處理的需求。同時(shí),用戶可以在文獻(xiàn)檢索及蛋白質(zhì)相互作用挖掘結(jié)果階段進(jìn)行數(shù)據(jù)篩選。平臺還具有對蛋白質(zhì)相互作用挖掘結(jié)果進(jìn)行導(dǎo)出和可視化等功能。該系統(tǒng)可以有效提高研究人員挖掘領(lǐng)域相關(guān)文獻(xiàn)的蛋白質(zhì)相互作用信息的速度。
  最后,我們設(shè)計(jì)并實(shí)現(xiàn)了用于存儲從文獻(xiàn)挖掘得到的蛋白質(zhì)相互

7、作用數(shù)據(jù)的知識庫系統(tǒng)(dbPPII)。該系統(tǒng)采用瀏覽器/服務(wù)器(B/S)架構(gòu),能為用戶提供基于本體概念名稱、蛋白質(zhì)名稱和蛋白質(zhì)名稱對三種方式來查詢和獲取蛋白質(zhì)相互作用信息。同時(shí)本體的層次結(jié)構(gòu)可以直觀展示蛋白質(zhì)相互作用的功能分布,具有導(dǎo)航和瀏覽作用,為用戶查找相應(yīng)功能蛋白質(zhì)相互作用提供了垂直、便捷的方式。
  綜上所述,本研究工作有以下幾點(diǎn)創(chuàng)新之處:
  (1)基于SVM模型探索了關(guān)鍵詞特征、詞性特征、邏輯特征以及依存句法特征

8、多個(gè)有效的學(xué)習(xí)特征在蛋白質(zhì)相互作用關(guān)系挖掘中的不同作用效果,并最終獲得了這些特征的最優(yōu)組合,是目前在同一測試數(shù)據(jù)集上的最好方法。
 ?。?)新的蛋白質(zhì)相互作用注釋體系的構(gòu)建。該體系首次從生物分子事件的角度描述蛋白質(zhì)相互作用,建立蛋白質(zhì)相互作用本體,更符合蛋白質(zhì)相互作用知識表示以及適用于文獻(xiàn)挖掘任務(wù)。在相互作用注釋信息挖掘任務(wù)中取得了較好的效果。
 ?。?)基于研發(fā)的SVM蛋白質(zhì)相互作用挖掘方法搭建全新的蛋白質(zhì)相互作用挖掘平臺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論