版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的急劇增長,海量的生物醫(yī)學(xué)信息成為制約生物醫(yī)學(xué)研究者研究的重要因素。一方面,生物醫(yī)學(xué)研究人員很難迅速查找蘊(yùn)藏在這些浩如煙海的生物醫(yī)學(xué)文獻(xiàn)中的具有價值的信息,因此也幾乎不可能通過人工的方式及時更新知識。與此同時,生物醫(yī)學(xué)領(lǐng)域具有十分豐富的在線和離線知識資源。生物醫(yī)學(xué)研究人員可以利用這些知識資源作為輔助,通過對已有知識資源進(jìn)行科學(xué)的表示并依此來學(xué)習(xí)新文獻(xiàn)中的知識,從而來進(jìn)一步更新和完善這些生物醫(yī)學(xué)知識資源,進(jìn)而達(dá)到輔助生
2、物醫(yī)學(xué)研究人員研究工作的目的。構(gòu)建這些知識資源的過程往往需要耗費(fèi)大量的人力物力財力,同時也受到知識資源構(gòu)建人員學(xué)術(shù)背景等主觀因素的制約。于是研究人員迫切需要一種自動的方法來解決文獻(xiàn)急劇增長和無法及時更新知識這對矛盾。生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化正由此應(yīng)運(yùn)而生。
生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化是生物醫(yī)學(xué)文本挖掘研究中重要的基礎(chǔ)環(huán)節(jié),它不僅與生物醫(yī)學(xué)命名實(shí)體識別研究緊密聯(lián)系,而且對后續(xù)實(shí)體關(guān)系抽取以及假設(shè)發(fā)現(xiàn)具有十分重要的意義。眾所周知,基
3、因和蛋白質(zhì)是最重要的生物醫(yī)學(xué)命名實(shí)體,它們對于生物醫(yī)學(xué)研究人員的研究具有十分重要的價值。因此,生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化研究的重點(diǎn)細(xì)化為基因提及標(biāo)準(zhǔn)化研究?;蛱峒皹?biāo)準(zhǔn)化的主要任務(wù)是識別出生物醫(yī)學(xué)文獻(xiàn)中提及的基因和蛋白質(zhì)以及正確建立這些基因提及與標(biāo)準(zhǔn)生物醫(yī)學(xué)數(shù)據(jù)庫中的標(biāo)識符之間的映射關(guān)系。通過這種方式可以降低構(gòu)造相關(guān)知識資源的成本。因此,生物醫(yī)學(xué)命名實(shí)體標(biāo)準(zhǔn)化具有很高的應(yīng)用價值。
本文首先介紹了生物醫(yī)學(xué)文本挖掘領(lǐng)域中的基因提及
4、標(biāo)準(zhǔn)化研究的概況。其次把如何利用知識資源對基因提及進(jìn)行消歧作為研究范疇。從利用相關(guān)反饋知識對消歧問題進(jìn)行初步嘗試入手,深入調(diào)研本領(lǐng)域相關(guān)文獻(xiàn),最終形成本文的核心方法。
本文基于擴(kuò)展語義輪廓消歧的標(biāo)準(zhǔn)化方法主要由四個部分組成:
第一部分是對原始的生物醫(yī)學(xué)摘要文本進(jìn)行預(yù)處理,利用現(xiàn)有的命名實(shí)體識別系統(tǒng)對處理后的摘要文本進(jìn)行識別。與此同時,把BioCreative II組織者提供的字典與數(shù)據(jù)庫資源中的基因提及同義字
5、信息進(jìn)行合并,從而構(gòu)建字典。最后對生成的字典進(jìn)行規(guī)范化處理,使其盡量消除由名稱拼寫差別造成的誤差。
第二部分是構(gòu)造候選基因提及標(biāo)識符列表。這部分主要的功能是把識別出來的基因提及通過搜索匹配的方法與生物學(xué)數(shù)據(jù)庫中的標(biāo)識符進(jìn)行對應(yīng),其中具有歧義的基因提及由下一步消歧方法來確定一個唯一的數(shù)據(jù)庫標(biāo)識符。
第三部分采用基于信息檢索的擴(kuò)展語義信息來進(jìn)行消歧,并將這種信息轉(zhuǎn)化為特征向量。最后,采用基于wikipedia的后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識別和標(biāo)準(zhǔn)化.pdf
- 命名實(shí)體語義消歧方法的研究.pdf
- 基于圖方法的命名實(shí)體消歧研究.pdf
- 基于詞表示方法的生物醫(yī)學(xué)命名實(shí)體識別.pdf
- 生物醫(yī)學(xué)文獻(xiàn)中命名實(shí)體的識別.pdf
- 基于遞歸神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識別.pdf
- 基于中文維基百科的命名實(shí)體消歧方法研究.pdf
- 基于領(lǐng)域知識庫的命名實(shí)體識別與人名消歧.pdf
- 基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)的命名實(shí)體識別并行算法研究.pdf
- 生物醫(yī)學(xué)縮略語消歧.pdf
- 命名實(shí)體間語義關(guān)系抽取研究.pdf
- 基于統(tǒng)計的生物命名實(shí)體識別研究.pdf
- 基于詞匯語義信息的中文命名實(shí)體關(guān)系抽取研究.pdf
- 基于語義范疇擴(kuò)展的詞義消歧的研究.pdf
- 基于種子自擴(kuò)展的命名實(shí)體關(guān)系抽取方法的研究.pdf
- 基于鏈接開放數(shù)據(jù)的命名實(shí)體語義相關(guān)度算法設(shè)計.pdf
- 基于依存樹的中文命名實(shí)體語義關(guān)系抽取的研究.pdf
- 基于位置和語義特征的中文命名實(shí)體關(guān)系抽取研究.pdf
- 基于樹核函數(shù)的命名實(shí)體語義關(guān)系抽取方法的研究.pdf
- 基于Stacking框架的命名實(shí)體識別.pdf
評論
0/150
提交評論