基于偏斜t混合模型的流式數(shù)據(jù)細胞類群自動識別算法研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-06 格式：pdf 頁數(shù)：136 大?。?6.80MB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩135頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、目的:流式細胞術是一種對大量細胞的物理和化學特性進行快速分析的技術。通過將熒光標記的抗體與細胞結合，并對細胞在激光照射下的光學信息進行分析，流式技術在細胞癌變診斷、腫瘤檢測、艾滋病檢測、細胞免疫表型分析、外周血干細胞移植及育苗研制等眾多領域得到了廣泛應用。然而，在目前流式技術的應用中，流式數(shù)據(jù)的分析仍然采用人工分析方式。人工分析數(shù)據(jù)不僅效率較低，浪費資源，而且分析結果的主觀性較強，結果的可靠性和可重復性低。隨著流式技術向著多通道、高通量

2、方向發(fā)展，快速自動的數(shù)據(jù)分析平臺已成為流式技術發(fā)展的迫切需求。
　　流式數(shù)據(jù)分析的主要過程是對樣本中細胞群進行劃分，即設門。人工設門方法是將多維數(shù)據(jù)逐次投影到二維空間，然后通過劃定區(qū)域?qū)⑼活惣毎麣w為一類。人工設門主要基于主觀經(jīng)驗進行區(qū)域設定，不僅缺乏統(tǒng)一標準，而且很難準確識別含有多維特征的細胞類群。流式數(shù)據(jù)自動設門在機器學習領域稱為非監(jiān)督聚類，針對這一過程目前雖然提出了一些自動聚類算法，然而由于流式技術檢測樣本的多樣性，許多流式

3、數(shù)據(jù)通常包含了一部分數(shù)量稀少且高度非對稱分布的類群，對于這些類群，目前的聚類算法無法進行準確識別。另外，由于流式技術的多參數(shù)特點，流式數(shù)據(jù)通常包含了多個維度的特征信息。對于多維度流式數(shù)據(jù)，目前的算法主要通過先將數(shù)據(jù)投影或降維到二維空間，然后進行聚類分析。降維或投影的過程不僅可能丟失一部分數(shù)據(jù)特征，而且其分析過程需要人工操作，其屬于一種半自動聚類算法。
　　綜上所述，有必要對流式數(shù)據(jù)細胞類群自動識別算法進行研究，實現(xiàn)多維流式數(shù)據(jù)的直

4、接聚類分析，尤其是數(shù)量稀少且高度非對稱分布類群的準確分析。
　　方法:本課題以流式數(shù)據(jù)細胞類群自動識別為目標，重點解決數(shù)據(jù)中數(shù)量稀少且高度非對稱分布類群的識別，實現(xiàn)多維流式數(shù)據(jù)的直接聚類分析。課題按照算法設計和實驗驗證兩個過程展開研究，主要進行了以下工作:
　　(1)針對數(shù)量稀少且高度非對稱分布類群的識別，提出了偏斜t混合模型聚類算法。通過對混合模型進行研究，確定了偏斜t分布為混合模型的分量密度。通過分析偏斜正態(tài)分布的定義方

5、法，以及t分布與正態(tài)分布的轉(zhuǎn)化關系，定義了一種偏斜t分布概率密度?；诨旌夏Ｐ蜆O大似然估計及其EM算法的研究，對定義的偏斜t分布混合模型進行EM算法推導，并得到了EM算法相關計算表達式。針對EM算法計算可能出現(xiàn)的局部最優(yōu)解問題，提出了一種基于K-means和極大似然的參數(shù)初始化方法，該方法保證EM算法計算過程收斂到全局最優(yōu)解。
　　(2)針對目前混合模型方法計算效率低，無法識別不規(guī)則形狀類群的問題，提出了基于偏斜t混合模型的層次聚

6、類算法。該算法通過類群數(shù)量估計、偏斜t混合模型聚類和結果合并三個主要步驟完成對數(shù)據(jù)的聚類分析。對于數(shù)據(jù)中類群數(shù)量的估計，要求估計的類群數(shù)必須限制在一個合理范圍，提出了一種基于直方圖的類群數(shù)量快速估計算法，該算法利用最大后驗概率計算最優(yōu)組數(shù)，并通過直方圖組間頻數(shù)變化趨勢識別類群峰，實現(xiàn)了流式數(shù)據(jù)中類群數(shù)量的快速估計。對偏斜t混合模型冗余的聚類結果，定義了一種類群間相似度判斷準則，該準則同時兼顧類群間的空間距離和類群的空間分布狀態(tài)。對合并過

7、程的結果，采用兩段回歸擬合方法實現(xiàn)了結果的最優(yōu)選擇。
　　(3)仿真實驗分析。由于前一個過程的結果會影響后一過程的計算時間，因此，基于流式數(shù)據(jù)的基本屬性（事件數(shù)、類群數(shù)和維度），首先仿真3組不同屬性的數(shù)據(jù)，分析影響算法時間復雜度的主要過程。然后，在此基礎上，仿真3組不同屬性的數(shù)據(jù)，分析影響算法時間復雜度的主要因素。接下來，通過分析兩個模仿真實流式數(shù)據(jù)特征的仿真數(shù)據(jù)，分別評價偏斜t混合模型識別不同形狀類群和算法識別數(shù)量稀少且高度非對

8、稱分布類群的有效性。在此過程中，分別對比其他混合模型和非基于概率模型聚類算法的分析結果。最后，通過分析一個含有凹形類群的仿真數(shù)據(jù)，評價算法分析不規(guī)則形狀數(shù)據(jù)的有效性。
　　(4)生物實驗驗證。首先進行微生物細胞活性分析實驗，通過分析酵母菌細胞活性實驗中的流式數(shù)據(jù)，評價算法在分析該類型數(shù)據(jù)的有效性。然后進行淋巴細胞亞群分析實驗，通過分析CD8+T淋巴細胞相對計數(shù)實驗和NK細胞與B細胞相對計數(shù)實驗數(shù)據(jù)，評價算法分析淋巴細胞亞群數(shù)據(jù)的有

9、效性。三個實驗數(shù)據(jù)分析過程中，同時對比目前其他基于概率模型的算法和非基于概率模型算法的分析結果。
　　結果:(1)仿真實驗結果:通過對三組（共30個）不同屬性的數(shù)據(jù)進行分析，并記錄三個過程的計算時間，得出偏斜t混合模型EM算法的計算時間占據(jù)了算法計算的主要時間，約為97％。通過采用偏斜t混合模型對三組（共60個）不同屬性的數(shù)據(jù)進行分析，得出偏斜t混合模型EM算法計算時間與數(shù)據(jù)中包含的事件數(shù)和類群數(shù)成線性關系，與數(shù)據(jù)的維度成平方關系

10、。并且，對于通常條件下的流式數(shù)據(jù)(p＜20，g＜20，n＜50000)，算法計算時間主要與數(shù)據(jù)中的類群數(shù)和事件數(shù)相關。由于其他基于混合模型的聚類算法采用信息準則識別類群數(shù)量，因此，實驗結果同時驗證了本文算法相比其他混合模型算法具有更高的計算效率。在算法有效性評價實驗中，偏斜t混合模型分析仿真數(shù)據(jù)結果的F-measure(F值)為:0.99234，高于其他混合模型分析結果的F值:0.98281，0.97989，0.98302，驗證了本文設

11、計的偏斜t混合模型識別多種分布形狀類群的能力。本文算法分析含數(shù)量稀少且高度非對稱分布類群的仿真數(shù)據(jù)結果的F值為0.99899，高于其他算法分析結果的F值:0.98002，0.98395，0.99264，驗證了本文算法識別數(shù)量稀少且高度非對稱分布細胞群的能力。通過分析包含凹形類群的仿真數(shù)據(jù)，驗證了本文算法識別數(shù)據(jù)中不規(guī)則分布類群的能力。
　　(2)生物實驗結果:以直接聚類方式對實驗數(shù)據(jù)進行分析，本文算法分析酵母菌細胞活性檢測實驗數(shù)據(jù)

12、結果的F值為0.91637，高于其他算法分析結果的F-measure值（F值）:0.78126、0.81928、0.89472、0.76438，驗證了本文算法分析該類型數(shù)據(jù)的有效性;本文算法分析CD8+T淋巴細胞亞群相對計數(shù)流式數(shù)據(jù)結果的F值為0.95642，高于其他算法分析結果的F值:0.78453、0.88642、0.89013、0.89691;本文算法分析B細胞和NK細胞相對計數(shù)流式數(shù)據(jù)結果的F值為0.95807，高于其他算法分析

13、結果的F值:0.80149、0.90826、0.92682、0.93041，驗證了本文算法分析淋巴細胞亞群數(shù)據(jù)的有效性。三個實驗的結果驗證了本文算法直接分析多維流式數(shù)據(jù)結果的可靠性。
　　結論:相比基于概率模型的軟聚類算法，本文提出的算法不僅能夠準確識別數(shù)據(jù)中凹形及不規(guī)則分布類群，而且分析時間少于其他算法。相比非基于概率模型的硬聚類算法，本文提出的算法不僅能夠識別數(shù)量稀少且呈現(xiàn)高度非對稱性的類群，而且實現(xiàn)了多維流式數(shù)據(jù)的直接聚類分

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于偏斜t混合模型的流式數(shù)據(jù)細胞類群自動識別算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于偏斜t混合模型的流式數(shù)據(jù)細胞類群自動識別算法研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載