2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩136頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、主題模型(Topic Model)能夠提取隱含在文檔(或其它離散數(shù)據(jù)集)中的主題,其中每個主題是語義相關(guān)的詞上的多項(xiàng)式分布。主題模型的主要目的是提取數(shù)據(jù)集中隱含的統(tǒng)計(jì)規(guī)律且利用主題進(jìn)行直觀表達(dá),然后可以利用獲得的主題進(jìn)行信息檢索、分類、聚類、摘要提取以及進(jìn)行信息間相似性、相關(guān)性判斷等一系列應(yīng)用。近年來,主題模型已逐漸成為文本挖掘、信息檢索等領(lǐng)域的一個新的研究方向。
   中國傳統(tǒng)醫(yī)學(xué)(簡稱中醫(yī))作為傳統(tǒng)生命科學(xué)的一個重要組成部分

2、,在疾病診療方面具有特色和顯著的臨床療效。幾千年的中醫(yī)診療實(shí)踐積累了大量的臨床數(shù)據(jù),這些數(shù)據(jù)中包含著豐富的符合中醫(yī)理論的知識與規(guī)律。在中醫(yī)信息化建設(shè)的背景下,利用現(xiàn)代化手段挖掘隱藏在這些臨床數(shù)據(jù)中的中醫(yī)診療規(guī)律具有重要意義。隨著數(shù)據(jù)挖掘技術(shù)的逐漸成熟和廣泛應(yīng)用,利用數(shù)據(jù)挖掘等手段,分析挖掘中醫(yī)診療規(guī)律已逐漸成為國內(nèi)中醫(yī)理論研究熱點(diǎn)。近年來,研究人員應(yīng)用聚類分析、關(guān)聯(lián)規(guī)則以及回歸分析和判別分析等方法研究中醫(yī)理論,并已取得了一定的研究進(jìn)展,

3、但是,仍然難以體現(xiàn)中醫(yī)的語義復(fù)雜性特點(diǎn)以及中醫(yī)診療的系統(tǒng)性特點(diǎn)。
   本文首次嘗試把主題模型引入中醫(yī)臨床診療規(guī)律的研究中。使用主題模型的動機(jī)是我們不僅認(rèn)為主題模型能夠捕獲中醫(yī)臨床診療數(shù)據(jù)集中的語義特征,而且認(rèn)為主題模型中的主題推理及生成過程與《傷寒論》所述的“觀其脈癥,知犯何逆,隨證治之”的中醫(yī)辨證論治過程基本一致,都是由顯變量到隱變量再到顯變量的過程。本文利用主題模型分析了2型糖尿病、冠心病的臨床診療數(shù)據(jù)以及中醫(yī)文獻(xiàn)數(shù)據(jù)。實(shí)

4、驗(yàn)表明,利用主題模型能夠提取出有臨床意義的中醫(yī)診療規(guī)律,為中醫(yī)臨床研究提供一種新穎的理論方法,為中醫(yī)臨床辨證治療提供一種客觀依據(jù)。
   本文的主要工作如下:
   (1)以隱狄利克雷分配(Latent Dirichlet Allocation,LDA)模型為代表的主題模型,是近年來文本挖掘和信息檢索等領(lǐng)域的一個新的研究熱點(diǎn)。本文系統(tǒng)地對主題模型的產(chǎn)生背景、發(fā)展過程、LDA主題模型常用的推理方法以及典型的主題模型進(jìn)行歸納

5、總結(jié)。為本文的研究奠定基礎(chǔ),為相關(guān)研究人員在主題模型領(lǐng)域的應(yīng)用研究提供較系統(tǒng)的參考依據(jù)。
   (2)提出LDA主題模型的特征加權(quán)機(jī)制。我們直接采用LDA主題模型分析中醫(yī)臨床癥狀主題時,發(fā)現(xiàn)主題分布向高頻詞傾斜,能夠代表主題特征的詞被少量的高頻詞淹沒,導(dǎo)致主題的解釋性和區(qū)分性不佳,而且在建模過程中影響其它詞在主題上的合理分配。于是,針對標(biāo)準(zhǔn)文本數(shù)據(jù),采用倒排文檔頻率(InverseDocument Frequency,IDF)進(jìn)

6、行特征加權(quán);針對中醫(yī)臨床數(shù)據(jù),提出一種新穎的高斯函數(shù)特征加權(quán)方法。實(shí)驗(yàn)表明:加權(quán)LDA主題模型能夠提高主題間的區(qū)分能力、提高主題的可解釋性以及提高主題模型的建模速度;在Newsgroups標(biāo)準(zhǔn)數(shù)據(jù)集上,利用建模后的主題作為特征進(jìn)行支持向量機(jī)(Support Vector Machine,SVM)分類時,能夠提高分類準(zhǔn)確率(Accuracy);能夠在一定條件下,降低模型的困惑度/復(fù)雜度(Perplexity)。
   (3)針對L

7、DA主題模型不能自動確定主題數(shù)目的問題,提出一種結(jié)合詞相似性與中國餐館過程(Chinese Restaurant Process,CRP)的主題模型;同時,針對LDA主題模型的Gibbs抽樣近似推理中的兩個Dirichlet超參數(shù)難以合理設(shè)置的問題,提出一種新穎的超參數(shù)設(shè)置方法。實(shí)驗(yàn)表明:提出的模型可以自適應(yīng)地動態(tài)更新主題內(nèi)容,確定合理的主題數(shù)目;超參數(shù)的設(shè)置能夠方便靈活地適應(yīng)不同的數(shù)據(jù)集,取得較低的模型復(fù)雜度。
   (4)分

8、析主題模型和中醫(yī)辨證論治的聯(lián)系,在LDA模型和作者-主題模型的基礎(chǔ)上,提出一種癥狀-中藥-診斷主題模型,用于自動提取中醫(yī)臨床數(shù)據(jù)中癥狀、中藥和診斷間的主題結(jié)構(gòu),系統(tǒng)地探索具有臨床意義的多個實(shí)體間的關(guān)系。在2型糖尿病臨床數(shù)據(jù)的分析實(shí)驗(yàn)中,獲得了2型糖尿病典型的并發(fā)癥/合并病(如糖尿病合并腎病,糖尿病外圍神經(jīng)病變等)的診療主題結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果分析表明:一類癥狀或其組合僅為人群/疾病分類找到了一種劃分方式或依據(jù),并不等同于該癥狀組合就對應(yīng)唯一的

9、證候或診斷,中醫(yī)存在個性化診療特點(diǎn);同時中醫(yī)也存在共性的診療規(guī)律;提出的癥狀-中藥-診斷主題模型能較好地揭示疾病的癥狀和中藥分布特征以及中醫(yī)診療規(guī)律。
   (5)對于一種復(fù)雜疾病(如糖尿病),通常存在多種并發(fā)癥。于是,體現(xiàn)出的癥狀存在疾病主癥和伴隨癥狀間的層次關(guān)系;同時,用藥也存在相應(yīng)的分層關(guān)系,即對方劑進(jìn)行隨癥加減。針對上述情況,為了揭示癥狀及相應(yīng)用藥的層次關(guān)系,本文在分層LDA模型和連接LDA模型的基礎(chǔ)上,提出一種分層癥狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論