2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩121頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著Web2.0時(shí)代的到來,社區(qū)型問答漸漸成為人們?cè)诰W(wǎng)絡(luò)上獲取知識(shí)和信息的必要途徑。相對(duì)于互聯(lián)網(wǎng)搜索引擎而言,社區(qū)型問答能夠直接返回用戶提出的自然語言形式問句的答案,而不是需要用戶自行篩選的檢索結(jié)果列表。相對(duì)于傳統(tǒng)的開放域問答系統(tǒng)而言,社區(qū)型問答中的答案都是由真實(shí)用戶生成的,其質(zhì)量要高于傳統(tǒng)的開放域問答系統(tǒng)自動(dòng)地從候選文檔中抽取和生成的答案。同時(shí),由于社區(qū)型問答中積累了大量的問答對(duì)資源,因此,社區(qū)型問答中的核心問題和關(guān)鍵技術(shù)體現(xiàn)在檢索相

2、似的已回答問句并返回相應(yīng)的答案,我們稱之為問句檢索。
  然而,社區(qū)型問答中的問句檢索面臨的三個(gè)主要挑戰(zhàn)為:由于用戶問句表述的冗長性導(dǎo)致的用戶意圖理解困難;由于用戶問句表述多樣性造成的問句之間的詞項(xiàng)不匹配問題;由于未能考慮問句的社區(qū)屬性而導(dǎo)致問句檢索的排序僅僅依靠文本相關(guān)性。因此,在本文中,我們從以下四個(gè)方面來解決上述三個(gè)關(guān)鍵問題,從而在整體上提高社區(qū)型問答中問句檢索的性能。
  本文的第二章提出了基于依存句法關(guān)系圖的詞項(xiàng)重

3、要度賦權(quán)方法,從而解決了社區(qū)型問答中用戶問句查詢的冗長性問題。具體地,對(duì)于已有的基于詞項(xiàng)賦權(quán)的問句檢索模型而言,一個(gè)主要的問題是在計(jì)算詞項(xiàng)權(quán)重時(shí)忽略了詞項(xiàng)之間的聯(lián)系。為了解決這個(gè)問題,我們提出了一種新的利用詞項(xiàng)之間依存句法關(guān)系作為線索的詞項(xiàng)賦權(quán)機(jī)制。對(duì)于給定問句,我們首先構(gòu)建依存句法圖來計(jì)算每個(gè)詞項(xiàng)對(duì)的關(guān)聯(lián)強(qiáng)度,進(jìn)而我們根據(jù)依存關(guān)聯(lián)度來更新常規(guī)的詞項(xiàng)權(quán)重。我們驗(yàn)證了更新后的詞項(xiàng)權(quán)重能夠有效地整合到已有的問句檢索模型中,且實(shí)驗(yàn)結(jié)果相比于已

4、有最新穎的問句檢索模型有了顯著的提升。
  本文的第三章提出了基于短語復(fù)述的問句重構(gòu)模型,提高了問句查詢擴(kuò)展的整體效果。具體地,由于語言表述的多樣性所導(dǎo)致的問句檢索中的詞項(xiàng)不匹配現(xiàn)象,已經(jīng)成為社區(qū)型問答中亟待解決的問題。為了解決這個(gè)問題,我們提出了一種基于短語級(jí)復(fù)述方法的問句重構(gòu)機(jī)制,從而提高了問句檢索的效果。給定一個(gè)問句查詢,我們首先結(jié)合語料庫統(tǒng)計(jì)信息和問句內(nèi)部線索的特征來識(shí)別問句中的關(guān)鍵短語;接下來,我們通過融合多個(gè)在線翻譯引

5、擎的翻譯結(jié)果來進(jìn)行關(guān)鍵短語的復(fù)述抽?。蛔詈?,我們提出一種基于解碼算法的問句重構(gòu)方法,在融合關(guān)鍵短語的基礎(chǔ)上,生成重構(gòu)問句。通過在社區(qū)型問答數(shù)據(jù)集上的問句檢索實(shí)驗(yàn)效果的提升,驗(yàn)證了我們所提出的問句重構(gòu)算法的有效性,并且在問句檢索上顯著優(yōu)于當(dāng)前的最新穎的問句檢索模型。
  本文的第四章提出了基于主題翻譯及聚類模型,實(shí)現(xiàn)問句查詢中詞項(xiàng)的擴(kuò)展。具體地,基于統(tǒng)計(jì)機(jī)器翻譯模型的問句檢索模型,其相關(guān)性排序機(jī)制主要依賴于詞項(xiàng)間的翻譯概率,然而已有

6、的機(jī)器翻譯模型沒有很好地控制詞項(xiàng)之間的翻譯噪聲,使得當(dāng)前的問句檢索模型存在不完善之處。我們提出一種基于主題翻譯及聚類模型的問句檢索模型,從理論上說明,該模型利用主題的推理及主題之間的相似性信息,達(dá)到控制翻譯模型噪聲的效果,從而提高問句檢索的結(jié)果。實(shí)驗(yàn)結(jié)果表明,我們提出的模型在MAP、MRR以及p@1等指標(biāo)上顯著優(yōu)于當(dāng)前最新穎的問句檢索模型。
  本文的第五章提出了問句流行度預(yù)測問題,并以此提高用戶問句檢索結(jié)果。具體地,隨著社區(qū)型問

7、答的發(fā)展,其上積累了大量高質(zhì)量的問答對(duì)資源。這些資源不僅能夠讓用戶進(jìn)行問句檢索的操作,更重要的是允許用戶之間進(jìn)行交互。在問答社區(qū)上面,大多數(shù)研究都是基于問句的文本內(nèi)容進(jìn)行問句檢索的相關(guān)研究,而很少有研究用戶個(gè)人信息及交互行為對(duì)問句檢索結(jié)果的影響。社區(qū)型問答中,問句的流行度能夠反映用戶的關(guān)注、興趣以及交互行為,因此,我們通過預(yù)測問句的流行度來改善用戶在問句檢索時(shí)的體驗(yàn)。我們首先通過對(duì)影響問句流行度的因素進(jìn)行分析和建模,以此來預(yù)測新問句的流

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論