專利本體中術(shù)語及術(shù)語間關(guān)系抽取研究.pdf_第1頁
已閱讀1頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、專利作為知識產(chǎn)權(quán)的核心要素,正成為各個國家和公司爭相掌握的重要資源。企業(yè)的技術(shù)人員需要從專利管理系統(tǒng)中得到大量有價值的技術(shù)信息。對專利的實時檢索、科學(xué)分析和研究已成為企業(yè)加強(qiáng)創(chuàng)新能力和競爭能力的必備條件。企業(yè)在開發(fā)新產(chǎn)品,技術(shù)難題攻關(guān)、技術(shù)貿(mào)易、技術(shù)引進(jìn)之前,進(jìn)行專業(yè)的專利檢索具有非常重要的意義,隨著專利知識信息爆炸性的增長,通過網(wǎng)絡(luò)對專利信息搜索已成為人們獲取專利信息的一種重要手段和一種新的趨勢。
  專利術(shù)語作為專利本體中的基

2、本元素,其質(zhì)量好壞直接影響著后續(xù)研究和應(yīng)用。術(shù)語間關(guān)系主要分為上下位關(guān)系和等同關(guān)系,其中上下位關(guān)系是整個本體的層次骨架,等同關(guān)系則是術(shù)語在某個層次的枝干擴(kuò)充,上述任務(wù)緊密合作密不可分。故本文從新能源電動汽車專利文本內(nèi)的術(shù)語自動抽取、術(shù)語間上下位關(guān)系抽取、術(shù)語間等同關(guān)系抽取三個方面展開研究,主要具體研究工作如下:
  (1)把專利術(shù)語分為單字詞術(shù)語和多字詞術(shù)語,分析其不同分布特征,由于長術(shù)語更能體現(xiàn)領(lǐng)域特性,本文重點(diǎn)分析長術(shù)語的構(gòu)成

3、特點(diǎn),提出了一種自動生成過濾詞典并結(jié)合詞匯密集度等影響因子的術(shù)語抽取方法。根據(jù)詞性規(guī)則模板對文獻(xiàn)匹配得到候選長術(shù)語集合。然后利用文檔一致度生成的過濾詞典過濾部分候選長術(shù)語集,最后將詞匯密集度、文檔差比、文檔一致度三個術(shù)語因子加權(quán)平均作為整個長術(shù)語的術(shù)語權(quán)重值,并按值高低排序。在8000篇專利摘要文獻(xiàn)的基準(zhǔn)語料上進(jìn)行了實驗,隨機(jī)選取了五組實驗數(shù)據(jù),平均準(zhǔn)確率達(dá)到91%。結(jié)果表明該方法在術(shù)語抽取方面是行之有效的。
  (2)專利術(shù)語間

4、等同關(guān)系的挖掘極大地豐富了專利本體知識庫,擴(kuò)充了術(shù)語的概念外延。同義詞對的自動抽取在信息檢索、本體擴(kuò)建等眾多領(lǐng)域都發(fā)揮著巨大的作用。本文借助維基百科的詞條釋義信息,提出一種詞素和語義結(jié)合的同義關(guān)系抽取方法。從維基百科的詞條釋義信息提取特征關(guān)系模板,利用該關(guān)系模板識別語素同義詞對,對字串進(jìn)行編輯距離計算,得到字面相似度較高的候選同義詞對,最后用上下文向量相似度方法實現(xiàn)同義詞對的自動識別。該方法在新能源汽車專利摘要文獻(xiàn)上進(jìn)行了實驗,總共獲取

5、到623個同義詞對,準(zhǔn)確率達(dá)到68%,驗證了方法的有效性。
  (3)上下位關(guān)系最終決定了本體的層級結(jié)構(gòu)。提出一種基于包含原則和向量機(jī)器學(xué)習(xí)結(jié)合的上下位關(guān)系識別方法。該方法從專利術(shù)語的構(gòu)成特點(diǎn)出發(fā),在專利術(shù)語庫上,將長度最短的術(shù)語集作為候選種子,用包含原則迭代抽取上下位關(guān)系實例。對字面無明顯規(guī)律的術(shù)語集,借助LTP句法分析工具,探索句子內(nèi)部結(jié)構(gòu),提取有效特征集,用支持向量機(jī)的機(jī)器學(xué)習(xí)方法訓(xùn)練并預(yù)測關(guān)系類別。實驗表明,該方法的F值最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論