版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、畢業(yè)設計開題報告畢業(yè)設計開題報告計算機科學與技術計算機科學與技術基于基于SVMSVM的漢語問句分類研究的漢語問句分類研究一、選題的背景與意義如今已是網絡信息爆炸的時代,信息浩如煙海,人們對于網絡的普遍需求是怎樣快速尋找到自己想要的信息。盡管目前有比較知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而對于更加準確、高效、人性的智能檢索系統(tǒng)的研發(fā)成為人們迫切的愿望。自動問答(QuestionAnswering,QA)系統(tǒng),是指系統(tǒng)接
2、受用戶以自然語言形式描述的提問,隨后能夠從大量的數據中查找出并且為用戶返回一個簡潔、準確的答案。問答系統(tǒng)是目前自然語言處理領域一個非常熱門的問題,它被認為是新一代智能檢索系統(tǒng)。不同的問答系統(tǒng)具有不同的結構,但大部分系統(tǒng)有著相同的框架,包括問句理解、信息檢索和答案抽取三部分。問題理解雖然是問答系統(tǒng)的一個子過程,但卻是第一個重要的模塊,這直接影響到了信息檢索和答案選取的正確率。因此,找出能夠良好識別漢語問句的方法,將使中文自動問答系統(tǒng)朝著應
3、用于多領域的普遍方向發(fā)展。特征選取是問句分類中最關鍵的一部分,這與文本分類有很多相似的地方,但是除了提取問句中的詞、詞性、語塊句法特征外,還需提取問句中一些隱含的語義特征。目前流行的方法有識別同義詞、關聯詞,計算語義相似度和語義相關度,語義塊和命名實體識別。對于問句分類方法的研究,目前主要集中在兩個方面,一是基于規(guī)則的方法,通過專家提取各種問句類型的疑問詞與其他相關詞組合的特征規(guī)則,通過規(guī)則來判定問句所屬類型。另一種是通過統(tǒng)計的方法實現
4、問句的分類,通過對真實的經過標注的問句語料進行統(tǒng)計學習,提取能表達各種問句類型的特征規(guī)則,建立學習模型,實現各種問句的類型識別。二、研究的基本內容與擬解決的主要問題:漢語問句分類目標是根據實際問句特征將其歸為一定集合的漢語問句類型中的一種,本文的分類標準參考文獻[9]中的問句分類體系,將漢語問句分成50多個類型,兩〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉〈indexn〉:〈valuen〉其中l(wèi)a
5、bel為問句相應類別的編號〈index〉是問句中特征定義的編號〈value〉為其對應的特征項的特征值.對于每一個問句要求提取出一個上面表達形式的特征向量用于訓練和測試.問句分類器選取了語義相似度的特征因此對該特征進行編碼即確定〈index〉項序號和具體特征之間的對應關系.特征編碼要借助于問句類別表、FAQ標準問句庫、中科院詞表。特征編碼確定后對于每一個問句只需確定這個特征編號(Index)在問句中對應的特征值(Value)對選取特征只取
6、兩個值(0或1).。對問句與標準問句庫進行相似度計算后判斷該問句是否包含相關特征項.若問句中出現該對應編碼的特征則對應的特征值為1否則為0。然后對每一個訓練和測試問句構建出一個表達問句的SVM特征向量。按照上述方式構造分類器的問句特征維數很大,SVM能夠處理高維特征,但是訓練時間較長。四、研究的總體安排與進度:20102011第一學年:12月20日1月9日:查閱相關書籍資料,對于中文自動問答系統(tǒng)作整體上的了解。1月10日2月16日:學習
7、基于詞和詞性的句法特征選擇方法和SVM算法的分類方法。20102011第二學年:2月17日3月20日:應用這兩種方法構造分類器并實現對給定訓練集和測試集的分類。3月21日4月10日:對分類器進行測試、修改,使分類效果盡可能的理想。4月11日5月1日:對最后的結果進行誤差分析、總結并撰寫畢業(yè)論文。五、主要參考文獻:[1]余正濤樊孝忠郭劍毅.基于支持向量機的漢語問句分類.華南理工大學學報2005.9[2]呂德新.中文自動問答系統(tǒng)中問題理解技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于svm的漢語問句分類研究【開題報告+文獻綜述+畢業(yè)設計】
- 基于svm的漢語問句分類研究【畢業(yè)論文】
- 基于漢語框架網的中文問句分類研究.pdf
- 基于SVM的圖像分類研究.pdf
- 基于SVM的指紋分類研究.pdf
- 基于SVM圖像分類方法的研究.pdf
- 基于SVM的圖像分類.pdf
- 基于SVM的遙感影像云分類研究.pdf
- 基于SVM分類的圖像邊緣檢測研究.pdf
- 基于SVM的網頁分類技術研究.pdf
- 基于SVM方法的醫(yī)學圖像分類研究.pdf
- 基于svm的網絡輿情文本分類研究
- 基于SVM的郵件內容分類方法研究.pdf
- 基于SVM分類算法的主題爬蟲研究.pdf
- 基于近鄰準則的SVM分類器研究及在漢語歧義切分中的應用.pdf
- 基于SVM的醫(yī)學圖像分類.pdf
- 基于SVM的車型自動分類方法的研究.pdf
- 基于卷積神經網絡的問句分類研究.pdf
- 基于SVM的漢語語音情感識別研究.pdf
- 基于SVM的膠囊缺陷分類識別研究.pdf
評論
0/150
提交評論