版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、新一代的高通量全基因組測序技術(shù)能夠有效地探測出整條染色體的所有遺傳變異,從而繪制出全基因組的變異圖譜,是全面而系統(tǒng)地探測群體內(nèi)常見變異(MAF>5%)、低頻變異(0.5% 2、目前為止最大規(guī)模、測序覆蓋密度最高的全基因組測序數(shù)據(jù)。面對如此豐富的數(shù)據(jù)資源,我們進行了大量的工作,根據(jù)課題的進度,主要分為兩個階段,其中不少研究成果已經(jīng)整理并發(fā)表。 3、色體的單核苷酸多態(tài)性數(shù)據(jù)作為下一波關(guān)聯(lián)分析方案設(shè)計的參考基礎(chǔ),從低頻變異領(lǐng)域出發(fā),探討未來的全基因組關(guān)聯(lián)分析新的時代,現(xiàn)有的關(guān)聯(lián)分析研究方法是否依然有效可用,針對疾病關(guān)聯(lián)分析應(yīng)該如何制定新的不同研究方案。 4、之間的連鎖不平衡都比常見SNP與常見SNP之間的連鎖不平衡要弱得多。其次,我們又設(shè)計了一系列的SNP標(biāo)簽實驗,說明了由于弱連鎖不平衡,使得我們無法再用傳統(tǒng)的芯片設(shè)計那樣,通過標(biāo)簽出一系列的SNP組成一個新的檢測芯片以達到覆蓋所有已知位點的目的。我們的實驗是假設(shè)將low coverage pilot檢測出的所有的SNP都作為“虛擬芯片”(Pilot14M)的標(biāo)簽位點,我們發(fā)現(xiàn)即使如此,Pilot14M也無法全部覆蓋到exon pilot中 5、那些隨著群體樣本改變而層出不窮的低頻位點信息,我們還考慮了對缺失數(shù)據(jù)進行插補的情況,但仍然觀察到有45.4%的低頻SNP無法被虛擬芯片所檢測出,Pilot14M對低頻SNP的覆蓋率僅僅只有67.7%。最后我們采用exon pilot中CEU人群的隨機外顯子區(qū)域數(shù)據(jù)集,將Pilot14M、Illumina1M和全基因組測序技術(shù)并列計算出它們在疾病與潛藏位點關(guān)聯(lián)分析時不同的效能表現(xiàn)。我們一共設(shè)計了4種疾病遺傳模型,制定了一系列的參數(shù)策略方案 6、,通過數(shù)據(jù)模擬,分別計算了不同情況下對于潛在致病位點的檢測效能。我們發(fā)現(xiàn)在常見SNP領(lǐng)域,傳統(tǒng)基因分型芯片的檢測效能夠達到疾病關(guān)聯(lián)分析的要求,但在低頻SNP領(lǐng)域,即使將研究樣本模擬到一個很大的數(shù)量,傳統(tǒng)基因分型芯片的檢測效能不是非常樂觀,無法達到全基因組測序技術(shù)同樣的高度。為了說明實驗結(jié)果的群體普遍性,我們也對CHD人群進行了同樣的研究步驟,結(jié)果是一致的。 7、適用于低頻SNP領(lǐng)域,對于新一代全基因組的測序數(shù)據(jù),我們需要制定新的策略,使用新的方法來進行與低頻SNP相關(guān)的關(guān)聯(lián)分析研究。 8、析(PCA),它對數(shù)據(jù)的異常值和缺失值都非常敏感,因此,我們將流形學(xué)習(xí)的局部線性嵌入方法引入到群體遺傳分析中,局部線性嵌入能夠很好地克服維數(shù)災(zāi)難,揭示出隱藏在高維數(shù)據(jù)空間的低維流形群體結(jié)構(gòu)。 9、表達時能夠?qū)θ后w分類體現(xiàn)出一種“群體特征向量”的新的概念,我們又從數(shù)學(xué)層面論證了主成分分析和局部線性嵌入的聯(lián)系,我們嘗試提出在群體結(jié)構(gòu)分析方面,局部線性嵌入是一種比主成分分析更為優(yōu)勝的分析手段。 10、her exact test)的不同之處。我們采用low coveragepilot數(shù)據(jù)集,以CEU群體為例,分別得到這兩類方法在CEU群體特征向量下的顯著關(guān)聯(lián)位點或者區(qū)域。對于常見SNP,我們分別在CEU、YRI和ASI人群中觀察到25.1%、44.9%和21.4%的與群體特征向量顯著關(guān)聯(lián)的位點,而在低頻SNP領(lǐng)域,顯著位點所占的百分比更加高,分別有89.2%,92.4%和75.1%,說明了絕大部分的低頻SNP具備群體結(jié)構(gòu)信息,而且從
第一階段的工作,我們主要研究了新一代高通量測序技術(shù)下疾病關(guān)聯(lián)分析的特點。
在過去十多年,典型的全基因組關(guān)聯(lián)分析只考慮了常見變異的情況,而用以檢驗低頻變異和自有變異的方法及相關(guān)研究卻還沒有得到很好地發(fā)展。為了尋求突破,我們使用千人基因組計劃的常染
我們首先研究low coverage pilot中常見SNP、低頻SNP之間的連鎖不平衡模式,圖解說明與過往常見SNP截然不同的連鎖不平衡分布模式。我們發(fā)現(xiàn)低頻SNP與低頻SNP之間的連鎖不平衡,和低頻SNP與常見SNP
我們的結(jié)論是基于已知SNP序列而設(shè)計的全基因組關(guān)聯(lián)分析方式都將不能
第二階段的工作,我們主要研究了新一代高通量測序技術(shù)下群體遺傳分析的特點。
千人基因組計劃為揭示人群遺傳可變性的分布、鑒別人群結(jié)構(gòu)和推斷自然人群的人口演變歷史提供了豐富的資源,但新的測序技術(shù)也帶來新的挑戰(zhàn),主要體現(xiàn)在三個方面:測序誤差、組裝錯誤和數(shù)據(jù)缺失。流行的群體遺傳分析手段是主成分分
我們采用了豐富多樣、各具特色的群體遺傳數(shù)據(jù),從大洲群體到祖孫三代家系,詳細討論了局部線性嵌入在刻畫群體結(jié)構(gòu)特征的獨到之處。我們發(fā)現(xiàn)通過相鄰點的信息對數(shù)據(jù)點進行重構(gòu),能夠有效地克服異常值和數(shù)據(jù)缺失,我們還留意到將高維數(shù)據(jù)映射到低維空間的
接下來,我們以局部線性嵌入為通用的群體遺傳分析框架,并發(fā)展了一種新的統(tǒng)計量,將整條染色體區(qū)域等分切割,將區(qū)域內(nèi)所有遺傳變異信息進行整合,結(jié)合計算得到群體特征向量,套用LASSO回歸分析,進一步討論和傳統(tǒng)的區(qū)域富集分析手段(如fis
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GPU和壓縮索引的新一代測序數(shù)據(jù)再測序研究.pdf
- 面向新一代測序技術(shù)的拼接算法研究.pdf
- 面向新一代測序技術(shù)的基因拼接算法.pdf
- 新一代測序數(shù)據(jù)過濾方法研究.pdf
- 基于新一代測序技術(shù)的中藥制劑質(zhì)量評價方法.pdf
- 新一代半導(dǎo)體測序儀測序數(shù)據(jù)分析方法研究.pdf
- 新一代測序技術(shù)下的軟件開發(fā)和轉(zhuǎn)錄組學(xué)研究.pdf
- 24038.新一代測序技術(shù)中的短序列比對和組裝算法
- 新一代信息技術(shù)產(chǎn)業(yè)投融資分析研究
- 基于新一代測序數(shù)據(jù)的RNA序列映射算法研究.pdf
- 面向新一代測序的GPU序列比對工具研究.pdf
- 新一代混合云助力新一代企業(yè)
- 人類成熟精子mRNA表達譜的新一代測序研究.pdf
- 31637.串聯(lián)質(zhì)譜和新一代測序技術(shù)高通量數(shù)據(jù)分析算法開發(fā)
- 基于新一代測序技術(shù)的BIOLAK和A2O活性污泥宏基因組研究.pdf
- 973 2012 基于新一代測序的生物信息學(xué)理論與方法
- 基于新一代測序的microRNA生物信息學(xué)分析及其平臺的建立.pdf
- 基于新一代測序技術(shù)的選擇性啟動子和雙向啟動子識別研究.pdf
- 新一代??怂?/a>
- 30590.新一代測序技術(shù)應(yīng)用的模擬研究和短序列比對的可視化
評論
0/150
提交評論