版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著計(jì)算技術(shù)和生物技術(shù)的進(jìn)步,當(dāng)前生物醫(yī)學(xué)相關(guān)的文獻(xiàn)正在以前所未有的速度增長(zhǎng)。著名的MEDLINE數(shù)據(jù)庫(kù)已經(jīng)收集了自1965年以來的近1100萬篇的生物醫(yī)學(xué)相關(guān)文獻(xiàn),并且以每天1500篇的速度在增長(zhǎng)。這些文獻(xiàn)中蘊(yùn)含了大量的知識(shí)。研究人員可以利用不同文獻(xiàn)中的研究成果,來尋找疾病和基因之間的關(guān)系、基因和不同生命功能以及不同基因之間的關(guān)系等非常有用的知識(shí)。這些知識(shí)應(yīng)用于實(shí)際,可以更好地診斷、預(yù)防和治療人類的疾病。但是,人工從海量的文獻(xiàn)中發(fā)現(xiàn)這
2、些知識(shí)幾乎是一件不可能的任務(wù)。因此,針對(duì)海量的生物醫(yī)藥文獻(xiàn)的信息檢索系統(tǒng)成為相關(guān)研究人員的迫切需求。2003年,TREC基因?qū)W方面的項(xiàng)目應(yīng)運(yùn)而生。
本文研究的基礎(chǔ)就是TREC2007年的基因?qū)W項(xiàng)目。因此本文首先對(duì)TREC做了簡(jiǎn)要的介紹,并詳細(xì)介紹了TRECGenomicsTrack2007數(shù)據(jù)源、主題以及評(píng)測(cè)提交形式。然后討論和分析了當(dāng)前主要的信息檢索模型,以及本文介紹的生物醫(yī)藥領(lǐng)域檢索系統(tǒng)中搭建檢索模塊用到的Indri工具包
3、。在檢索過程中考慮到查詢中所使用的術(shù)語(yǔ)可能與文檔集中使用的術(shù)語(yǔ)不匹配而導(dǎo)致一些相關(guān)的文檔不能被成功地檢索出來,影響檢索效果,本文提出了兩個(gè)查詢擴(kuò)展的方法——正規(guī)化的同義詞查詢擴(kuò)展方法和基于查詢結(jié)果反饋的查詢擴(kuò)展方法。最后描述了生物醫(yī)學(xué)領(lǐng)域檢索系統(tǒng)的整體設(shè)計(jì)、實(shí)現(xiàn)和測(cè)試結(jié)果。
本文重點(diǎn)討論并實(shí)現(xiàn)了以下兩個(gè)方面的內(nèi)容:信息檢索模型,查詢擴(kuò)展技術(shù)。利用以上技術(shù),本文初步實(shí)現(xiàn)了生物醫(yī)學(xué)領(lǐng)域檢索系統(tǒng)。為了考察本系統(tǒng)的性能以及查詢擴(kuò)展方法
4、對(duì)于系統(tǒng)性能的影響,文本設(shè)計(jì)了相應(yīng)的實(shí)驗(yàn)。實(shí)驗(yàn)表明,查詢擴(kuò)展方法對(duì)系統(tǒng)的性能會(huì)有積極的影響,其中正規(guī)化的同義詞查詢擴(kuò)展方法相對(duì)系統(tǒng)baseline在DocumentMAP、AspectMAP、PassageMAP分別提高4.5%、3.4%、2.3%;而基于查詢結(jié)果反饋的實(shí)體查詢擴(kuò)展方法相對(duì)系統(tǒng)baseline在DocumentMAP、AspectMAP、PassageMAP分別提高19.1%、20.5%、15.8%,其中Document
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向生物醫(yī)學(xué)領(lǐng)域的雙語(yǔ)對(duì)齊技術(shù)研究.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的文本挖掘技術(shù)研究.pdf
- 領(lǐng)域本體的查詢擴(kuò)展及檢索研究.pdf
- Flash內(nèi)容檢索的查詢擴(kuò)展技術(shù)研究.pdf
- 信息檢索中的查詢擴(kuò)展技術(shù)研究.pdf
- 基于Lucene的生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)的研究與改進(jìn).pdf
- 基于領(lǐng)域本體的生物醫(yī)學(xué)文本檢索.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的信息抽取關(guān)鍵技術(shù)研究.pdf
- 基于模糊查詢技術(shù)的文件檢索系統(tǒng)研究.pdf
- 信息檢索中的查詢擴(kuò)展及相關(guān)技術(shù)研究.pdf
- 跨語(yǔ)言信息檢索的查詢消歧及查詢擴(kuò)展技術(shù)研究.pdf
- 查詢擴(kuò)展技術(shù)研究.pdf
- 圖像檢索系統(tǒng)的優(yōu)化技術(shù)研究.pdf
- 生物醫(yī)學(xué)數(shù)據(jù)的檢索方法
- 生物醫(yī)學(xué)信息檢索與利用
- 生物醫(yī)學(xué)領(lǐng)域的專家尋找研究.pdf
- 基于PLSI的信息檢索中查詢擴(kuò)展相關(guān)技術(shù)研究.pdf
- 生物醫(yī)學(xué)信號(hào)采集與處理技術(shù)研究.pdf
- 面向蒙古文增量查詢擴(kuò)展的信息檢索技術(shù)研究.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的信息抽取研究.pdf
評(píng)論
0/150
提交評(píng)論