文本特征信息的搜索與分類系統(tǒng)設(shè)計(jì)【開(kāi)題報(bào)告】_第1頁(yè)
已閱讀1頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p><b>  畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告</b></p><p><b>  計(jì)算機(jī)科學(xué)與技術(shù)</b></p><p>  文本特征信息的搜索與分類系統(tǒng)設(shè)計(jì)</p><p>  一、選題的背景、意義</p><p>  信息無(wú)時(shí)不在,無(wú)時(shí)不有,具有普遍性、載體依附性、價(jià)值的相對(duì)性、時(shí)效性、共享

2、性、可偽性等一般特征。隨著信息技術(shù)的應(yīng)用與發(fā)展和互聯(lián)網(wǎng)的普及,龐雜的文本信息流急劇增多,對(duì)于我們的認(rèn)知與決策帶來(lái)了很大的壓力,如何有效地組織和管理這些信息并快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本信息是網(wǎng)絡(luò)信息中很重要的一部分。對(duì)于文本信息的整理和顯示,需要經(jīng)過(guò)一定的步驟和方法來(lái)完成的。文本的搜索是要求用戶提交查詢關(guān)鍵詞(文本特征)來(lái)查找與之匹配的一系列信息,通過(guò)相關(guān)的調(diào)整,進(jìn)而能夠讓用戶有效、迅

3、捷地為用戶獲取所要的文本信息。</p><p>  文本特征信息的搜索與分類離不開(kāi)搜索引擎技術(shù)和文本挖掘相關(guān)的技術(shù)。這兩者缺一不可。</p><p>  先談一下搜索引擎技術(shù)的發(fā)展?fàn)顩r?,F(xiàn)如今,搜索引擎已成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)。在短短十年的時(shí)間內(nèi),搜索引擎迅猛地發(fā)展起來(lái)。隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式的增長(zhǎng),搜索引擎越來(lái)越引起人們的重視,搜索引擎已成為一個(gè)非常熱門的話題。

4、搜索引擎技術(shù)現(xiàn)在已成為計(jì)算機(jī)產(chǎn)業(yè)界和學(xué)術(shù)界爭(zhēng)相研究和開(kāi)發(fā)的對(duì)象。通過(guò)對(duì)搜索引擎技術(shù)和檢索任務(wù)方面的詞語(yǔ)進(jìn)行統(tǒng)計(jì)和分析,一方面可以反映出學(xué)術(shù)界對(duì)搜索引擎的關(guān)注程度,另一方面也能大致分析出搜索引擎的發(fā)展現(xiàn)狀以及發(fā)展趨勢(shì)。</p><p>  搜索引擎的發(fā)展大致可以分割成3個(gè)階段。</p><p>  第一個(gè)階段里的搜索引擎以雅虎為標(biāo)志,主要依靠人工分揀信息,用分類目錄搜索信息。這一階段的搜索引

5、擎技術(shù)還處于萌芽階段。雖然這樣,但此時(shí)各種搜索引擎概念也相繼出現(xiàn)了,如目錄式搜索引擎、全文搜索引擎、元搜索引擎等。這一階段,詞頻相對(duì)較高的關(guān)鍵詞是全文檢索、智能檢索、多媒體、圖像搜索、語(yǔ)義網(wǎng)絡(luò)、分類目錄、分類主題等。這個(gè)時(shí)期分類搜索是網(wǎng)絡(luò)搜索的主流。</p><p>  搜索引擎在第二個(gè)階段里開(kāi)始迅速發(fā)展。最負(fù)盛名的搜索引擎當(dāng)數(shù)Google,它在1999年以不可抵擋的勢(shì)頭走向世界,依靠機(jī)器抓取、分析進(jìn)行網(wǎng)頁(yè)搜索[

6、1],帶動(dòng)了新技術(shù)PageRank和錨文本技術(shù)的發(fā)展。此階段的熱點(diǎn)詞語(yǔ)有關(guān)鍵詞檢索、倒排索引、全文索引、自動(dòng)摘要、鏈接分析等。這段時(shí)期鏈接分析技術(shù)、PageRank算法以及Hit算法等如火如荼地展開(kāi)。人們基本認(rèn)為Web信息檢索開(kāi)始進(jìn)入了新一代搜索引擎階段[2]。</p><p>  第三個(gè)階段里搜索引擎的研究變得非?;馃?,搜索引擎越來(lái)越向智能化、個(gè)性化、專業(yè)化的方向發(fā)展,同時(shí)也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引

7、擎產(chǎn)品。通過(guò)對(duì)文本分類、聚類、用戶行為分析、分布式、相關(guān)反饋、智能代理、查詢擴(kuò)展等高頻詞的分析,我們可以看出,人工智能、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、自然語(yǔ)言理解等領(lǐng)域的研究有力地促進(jìn)了搜索引擎的發(fā)展。</p><p>  再談一下文本挖掘相關(guān)的發(fā)展。雖然信息通訊技術(shù)的發(fā)展及由此帶來(lái)的信息量的增長(zhǎng),極大地促進(jìn)了人們的溝通和交流,為人類的文明和發(fā)展做出了巨大的貢獻(xiàn)。但同時(shí),信息爆炸式增長(zhǎng)帶來(lái)的消極影響正在凸現(xiàn)。在此,國(guó)際上提出

8、了多項(xiàng)文本挖掘計(jì)劃,以期對(duì)網(wǎng)上“堆積如山”的巨大的信息礦床進(jìn)行有效的過(guò)濾、開(kāi)發(fā)與綜合利用,把信息變成能夠方便利用的知識(shí)和財(cái)富。</p><p>  NIST(美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局)和DARPA(美國(guó)國(guó)防高級(jí)研究計(jì)劃局)組織的TREC(文本檢索會(huì)議)會(huì)議是國(guó)際上文本挖掘領(lǐng)域的著名評(píng)測(cè)會(huì)議,從1992年起每年召開(kāi)一次,迄今已經(jīng)召開(kāi)了13屆。1991-1998年,DARPA資助了TIPSTER文本計(jì)劃,主要著眼于三項(xiàng)基礎(chǔ)

9、技術(shù)的評(píng)測(cè):文檔檢測(cè)、信息提取、摘要。2003年,DARPA開(kāi)始啟動(dòng)以機(jī)器學(xué)習(xí)為核心的計(jì)劃PAL4,為期5年,首期(1-1.5年)投資2900萬(wàn)美元。PAL包含2個(gè)子計(jì)劃:其中,CALO5子計(jì)劃是整個(gè)PAL計(jì)劃的核心(2200萬(wàn)),將機(jī)器學(xué)習(xí)技術(shù)放到了國(guó)家安全的角度來(lái)考慮。美國(guó)主要大學(xué)與公司參加這個(gè)子計(jì)劃。由此可見(jiàn),對(duì)海量網(wǎng)絡(luò)信息的有效處理和深層次綜合利用離不開(kāi)文本挖掘技術(shù),文本挖掘?qū)⒊蔀槿藗儜?yīng)對(duì)信息時(shí)代挑戰(zhàn)的強(qiáng)大利器之一[3]。<

10、;/p><p>  二、研究的基本內(nèi)容與擬解決的主要問(wèn)題</p><p>  在該系統(tǒng)中要實(shí)現(xiàn)文本信息的搜索與分類,就必須期望實(shí)現(xiàn)以下功能:</p><p>  1)美觀的搜索界面,按文本關(guān)鍵字搜索;</p><p>  2)搜索引擎,完成把所要查詢的關(guān)鍵字與網(wǎng)上文本信息進(jìn)行匹配;</p><p>  3)數(shù)據(jù)庫(kù)設(shè)計(jì),實(shí)現(xiàn)

11、把網(wǎng)上匹配的文本特征信息下載并記錄,為顯示結(jié)果提供依據(jù);</p><p>  4)結(jié)果顯示界面,顯示項(xiàng)目包括關(guān)鍵字、相似度和網(wǎng)址,并按一定的順序羅列。</p><p>  研究要求是在已有的專業(yè)理論知識(shí)和應(yīng)用能力的基礎(chǔ)上,掌握J(rèn)ava編程和WEB技術(shù),能較熟練的運(yùn)用Java開(kāi)發(fā)工具M(jìn)yeclipse及SQL SERVER 2000數(shù)據(jù)庫(kù),研究開(kāi)發(fā)出具有上述功能的文本特征信息的搜索與分類系統(tǒng)

12、。</p><p>  在研究途中最主要的一個(gè)問(wèn)題是如何設(shè)計(jì)一個(gè)搜索引擎來(lái)實(shí)現(xiàn)在網(wǎng)上根據(jù)文本特征搜索文本信息并進(jìn)行分類。這一點(diǎn)很重要,但充滿著困難。第二個(gè)問(wèn)題是如何構(gòu)建數(shù)據(jù)庫(kù)。搭建一個(gè)好的數(shù)據(jù)庫(kù)結(jié)構(gòu)會(huì)省去很多不必要的煩惱與省下不少的精力。第三個(gè)問(wèn)題是自己所學(xué)的知識(shí)面很窄,技術(shù)掌握不到位,不全面,不能一下子就能解決可能碰到的問(wèn)題。針對(duì)這一點(diǎn)就需要查閱大量的文檔和書(shū)籍,還可以請(qǐng)教導(dǎo)師來(lái)幫忙解決。</p>

13、<p>  三、研究的方法與技術(shù)路線、研究難點(diǎn),預(yù)期達(dá)到的目標(biāo)</p><p>  文本挖掘是以半結(jié)構(gòu)(如Web網(wǎng)頁(yè))或者無(wú)結(jié)構(gòu)(如純文本)的自然語(yǔ)言文本為對(duì)象的數(shù)據(jù)挖掘。它是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在有用的規(guī)律的過(guò)程[4]。文本挖掘首先要從文本中提取適當(dāng)?shù)奶卣?,將文本表示成?jì)算機(jī)能夠理解的數(shù)字形式。根據(jù)處理速度和精度的需要,可以對(duì)文本中的特征進(jìn)行選擇優(yōu)化。然后采用各種文本挖

14、掘方法發(fā)現(xiàn)隱藏的知識(shí)模式,以滿足用戶評(píng)價(jià)標(biāo)準(zhǔn)的模式最終輸出,成為指導(dǎo)人們實(shí)踐的有用知識(shí)。</p><p>  文本挖掘之前,用信息抽取技術(shù)(Information Ex—traction,IE)進(jìn)行非結(jié)構(gòu)化的信息挖掘。但隨著IE系統(tǒng)的發(fā)展,人們認(rèn)為它更適合利用精確的查詢相匹配概念和文字找出關(guān)系。IE系統(tǒng)的主要優(yōu)勢(shì)在于以下幾點(diǎn):查詢的精確,輸出結(jié)果的透明和直接進(jìn)入數(shù)據(jù)庫(kù)或真實(shí)地顯示出來(lái)?!拔谋就诰颉边@個(gè)詞通過(guò)類似于

15、傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)一樣被應(yīng)用到這些系統(tǒng)中。針對(duì)IE對(duì)自然語(yǔ)言處理的不足,文本挖掘可以通過(guò)統(tǒng)計(jì)共現(xiàn)方法處理自然語(yǔ)言。</p><p>  文本具有有限的結(jié)構(gòu),有的甚至沒(méi)有結(jié)構(gòu),此外計(jì)算機(jī)不能直接處理人類的自然語(yǔ)言,所以對(duì)文本數(shù)據(jù)源要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要包括分詞技術(shù)(英文文本則需要Stemming技術(shù))和特征表示和特征提取。因?yàn)橹形脑~與詞之間沒(méi)有固有的間隔符(空格),需要進(jìn)行分詞處理[5]。</p&g

16、t;<p>  文本經(jīng)過(guò)分詞、特征表示和特征提取后就可進(jìn)行挖掘了。對(duì)于非結(jié)構(gòu)化問(wèn)題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,由于數(shù)據(jù)非常復(fù)雜,導(dǎo)致這種算法的復(fù)雜性很高;另一條途徑就是將非結(jié)構(gòu)化問(wèn)題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,目前的文本挖掘一般采用該途徑進(jìn)行處理。對(duì)于語(yǔ)義關(guān)系,則需要集成計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理等成果進(jìn)行分析[6]。常用的文本挖掘技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚

17、類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)。</p><p>  要表示文本首先要提取文本特征[7]。文本的特征應(yīng)該具有以下特點(diǎn):特征是能夠?qū)ξ谋具M(jìn)行充分表示的語(yǔ)言單位;文本在特征空間中的分布具有較為明顯的統(tǒng)計(jì)規(guī)律;文本映射到特征空間的計(jì)算復(fù)雜度不太大。要表示好文本,就要尋找最有代表性的文本特征。對(duì)于計(jì)算機(jī)來(lái)說(shuō),文本就是由最基本的語(yǔ)言符號(hào)組成的字符串。西文文本是由字母(letter)和標(biāo)點(diǎn)符號(hào)組成的字符串,中文文本就是

18、由漢字和標(biāo)點(diǎn)符號(hào)組成的字符串。在西文文本中,字母構(gòu)成詞(word)。由于字母數(shù)量太少,無(wú)法作為特征,因此普遍使用詞作為特征。在中文文本中,字構(gòu)成詞,詞構(gòu)成短語(yǔ),進(jìn)而形成句、段、節(jié)、章、篇等語(yǔ)言文字結(jié)構(gòu)。文本挖掘中常用的文本特征有字、詞或短語(yǔ)等。在實(shí)際應(yīng)用中,到底選擇何種特征來(lái)表示文本需要結(jié)合處理速度、精度要求、存儲(chǔ)空間等方面的具體要求來(lái)決定。</p><p>  由于Web文本的特點(diǎn),Web信息提取算法的特征選擇

19、一般不采用自然語(yǔ)言處理中的語(yǔ)法和語(yǔ)義特征,而使用下列特征[8]:</p><p>  符號(hào)特征:HTML文檔中的符號(hào)包括標(biāo)記符號(hào)和文本中的符號(hào)。對(duì)于英文文本,文本的符號(hào)化很簡(jiǎn)單,可以用非數(shù)字字母符號(hào)將文本字符序列隔開(kāi)成字符串,這些隔開(kāi)的字符串稱之為token。對(duì)于標(biāo)記符號(hào)token,特征有標(biāo)記名、屬性等。對(duì)于文本符號(hào)token,特征有類型(數(shù)字、單詞等)、值(文本實(shí)際內(nèi)容)等。</p><p&

20、gt;  除符號(hào)特征外,符號(hào)之間的關(guān)系也可能是信息提取的重要線索。關(guān)系特征考慮符號(hào)之間的關(guān)系。</p><p>  文本片段特征:?jiǎn)渭儚膖oken層次來(lái)描述文本特征是不夠的,要提取的信息一般是由很多個(gè)token組成的文本片段,因此從文本片段層次上來(lái)描述特征是必要的。</p><p>  文檔結(jié)構(gòu)特征:由于HTML文檔中含有大量的標(biāo)記信息,而標(biāo)記之間是層層嵌套的。大多數(shù)的文本都處于標(biāo)記之內(nèi),

21、有些類型網(wǎng)頁(yè)的標(biāo)記出現(xiàn)有一定規(guī)律可循,另外有少數(shù)標(biāo)記具有語(yǔ)義線索,如<title>,<head>,<h1>標(biāo)記中的內(nèi)容一般對(duì)整個(gè)文檔的語(yǔ)義起概括作用??梢岳玫奈臋n結(jié)構(gòu)特征有符號(hào)所在的標(biāo)記、父標(biāo)記等。</p><p>  特征表示是指以一定特征項(xiàng)(如詞條或描述)來(lái)代表文檔,在文本挖掘時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理,從而實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本的處理,這是一個(gè)非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)化的處理步

22、驟。特征表示的構(gòu)造過(guò)程就是挖掘模型的構(gòu)造過(guò)程,特征表示模型有多種,常用的有布爾邏輯型、概率型、向量空間型等[9]。我們采用了應(yīng)用較多的向量空間模型(Vector Space Model ,VSM )。</p><p>  向量空間模型(Vector Space Model, VSM)是由G. Salton等人在20世紀(jì)60年代提出的信息檢索模型,是效果較好、近些年來(lái)被廣泛應(yīng)用的一種方法。最典型的向量空間模型原型系

23、統(tǒng)是康奈爾大學(xué)的SMART(System for the Manipulation and Retrieval of Text)系統(tǒng),它提供源代碼開(kāi)放下載,目前已經(jīng)被成千上萬(wàn)的研究者所采用。向量空間模型(Vector Space Model)把文本表示成n維歐式空間的向量,并用它們之間的夾角余弦作為相似性的度量。在向量空間模型中,首先要建立文本向量和用戶查詢的向量,然后對(duì)這些向量進(jìn)行相似性計(jì)算(匹配運(yùn)算),在匹配結(jié)果基礎(chǔ)上進(jìn)行相關(guān)反饋,

24、以優(yōu)化用戶的查詢,提高檢索效率[10]。</p><p>  雖然各個(gè)搜索引擎的具體實(shí)現(xiàn)不盡相同,但是一般包含爬蟲(chóng)程序、分析程序、索引程序、檢索程序和用戶接口界面5個(gè)基本部分,而且大致的工作原理是相同的。WEB搜索引擎主要是通過(guò)爬蟲(chóng)程序定期遍歷互聯(lián)網(wǎng),將網(wǎng)頁(yè)的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時(shí)間等相關(guān)信息收集到WEB服務(wù)器中,然后通過(guò)必要的信息索引和存儲(chǔ)優(yōu)化處理,利用特定的檢索界面對(duì)WEB用戶直接提供服務(wù)[1

25、1]。</p><p>  它的具體工作流程包括以下幾步:</p><p>  第一步,爬蟲(chóng)程序采用一定的搜索策略對(duì)WEB網(wǎng)絡(luò)進(jìn)行遍歷并下載網(wǎng)頁(yè),系統(tǒng)維護(hù)一個(gè)超鏈隊(duì)列或者堆棧,其中包含一些起始URL;爬蟲(chóng)程序從這些URL出發(fā),下載相應(yīng)的頁(yè)面,并從中抽取出新的超鏈隊(duì)列加入到隊(duì)列或者堆棧中。</p><p>  第二步,由分析程序?qū)ε老x(chóng)程序下載的網(wǎng)頁(yè)進(jìn)行分析以用于索引,

26、網(wǎng)頁(yè)分析技術(shù)一般包括分詞(有些僅從文檔某些部分抽詞,如Altavista)或者使用停用詞表(stop list)來(lái)過(guò)濾網(wǎng)頁(yè)信息,同時(shí)還提供諸如單復(fù)數(shù)轉(zhuǎn)換、詞綴去除和同義詞替換等詞語(yǔ)轉(zhuǎn)換,這些技術(shù)的具體實(shí)現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關(guān)。</p><p>  第三步,索引程序?qū)⒕W(wǎng)頁(yè)信息表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫(kù)中。</p><p>  第四步,檢索程序從索引中找出與

27、用戶查詢請(qǐng)求相關(guān)的網(wǎng)頁(yè)信息,采用與分析網(wǎng)頁(yè)文檔相似的方法來(lái)處理用戶查詢請(qǐng)求,最后將相關(guān)度大于閾值的所有網(wǎng)頁(yè)按照相關(guān)度遞減的順序并返還給用戶,當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。</p><p>  最后,用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。</p><p>  向量空間模型具體步驟如下:</p><p>  首先把文檔分解成若干詞語(yǔ),

28、去掉出現(xiàn)頻率較高但又沒(méi)有實(shí)際意義的詞語(yǔ),比如“雖然”、“但是”等等,此時(shí)文檔D(Document)就可以由一系列實(shí)詞建立的n維向量空間來(lái)表示[12]。</p><p>  然后利用余弦相似度定理,判斷該文檔與描述用戶興趣的文檔之間的內(nèi)容相關(guān)度,即兩個(gè)文檔向量之間的夾角余弦值即可得出這兩篇文檔之間的相似性(夾角越小相似性越大)。通常用戶至少提供一個(gè)關(guān)鍵詞形成用戶模板,以此表明用戶的興趣取向,權(quán)重大小由輸入的先后順序

29、決定。在進(jìn)行向量匹配時(shí),用戶模板在檢索時(shí)可被看成是由n個(gè)詞語(yǔ)組成的向量。首先得到同時(shí)包括這幾個(gè)詞的文獻(xiàn),然后一一比較,描述文件向量和文獻(xiàn)向量的相似程度,最后根據(jù)相似程度把命中的文獻(xiàn)排序返回給用戶[13]。</p><p>  向量空間模型可將文本和查詢簡(jiǎn)化為項(xiàng)及權(quán)重集合的向量表示,從而把檢索操作變成向量空間上的向量運(yùn)算,其權(quán)重計(jì)算可以通過(guò)簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)來(lái)完成,通過(guò)定量分析,匹配文本和查詢。在這個(gè)基礎(chǔ)上,引入各種成

30、熟的統(tǒng)計(jì)方法,更大程度地挖掘文本中蘊(yùn)涵的語(yǔ)義信息,如主成分分析、因子分析、聚類分析等等。具有較強(qiáng)的可計(jì)算性和可操作性的特點(diǎn),特別是隨著網(wǎng)絡(luò)信息的迅速膨脹,其應(yīng)用已經(jīng)不僅僅局限于文本檢索、自動(dòng)文摘、關(guān)鍵詞自動(dòng)提取等傳統(tǒng)問(wèn)題,還可以應(yīng)用到搜索引擎、個(gè)人信息代理、網(wǎng)上新聞發(fā)布等信息檢索領(lǐng)域。在向量空間模型中,文檔的內(nèi)容被形式化為多維空間的一個(gè)點(diǎn),把文檔以向量的形式定義到實(shí)數(shù)域中,能夠使用模式識(shí)別和其它領(lǐng)域中各種成熟的計(jì)算方法,極大地提高自然語(yǔ)

31、言文檔的可計(jì)算性和可操作性,因而在文本過(guò)濾中獲得廣泛應(yīng)用并取得良好效果。</p><p>  向量空間模型的缺點(diǎn)在于項(xiàng)之間線性無(wú)關(guān)的假設(shè),在自然語(yǔ)言中,詞或短語(yǔ)之間存在著十分密切的聯(lián)系,即存在“斜交”現(xiàn)象,很難滿足假設(shè)條件,對(duì)計(jì)算結(jié)果的可靠性造成一定的影響。此外,將復(fù)雜的語(yǔ)義關(guān)系,歸結(jié)為簡(jiǎn)單的向量結(jié)構(gòu),將會(huì)丟失許多有價(jià)值的線索。</p><p>  通過(guò)以上分析,可以看出特征文本信息的搜索

32、與分類技術(shù)存在著以下幾種發(fā)展趨勢(shì):</p><p>  一是新的搜索引擎不斷涌現(xiàn):比如智能化搜索引擎。新引擎出現(xiàn)得益于人工智能、機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算等領(lǐng)域中新技術(shù)的涌現(xiàn)和發(fā)展。</p><p>  二是傳統(tǒng)方法的進(jìn)一步發(fā)展:比如支持向量機(jī)[14]的不斷改進(jìn)發(fā)展。傳統(tǒng)分類方法的發(fā)展主要利用了機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算、數(shù)據(jù)挖掘、模糊集和粗糙集[15]等理論中的原理和方法。</p><

33、;p>  三是多技術(shù)融合:一方面根據(jù)實(shí)際問(wèn)題需要,有針對(duì)性地綜合眾多領(lǐng)域的技術(shù),以提高分類的性能;另一方面,文本、語(yǔ)音和圖像搜索分類技術(shù)的融合,隨著互聯(lián)網(wǎng)和多媒體技術(shù)的進(jìn)一步發(fā)展,文本搜索和分類技術(shù)將與圖像識(shí)別、語(yǔ)音識(shí)別融合,比如圖像文本的分類、語(yǔ)音文本的分類、多媒體數(shù)據(jù)庫(kù)索引等。</p><p>  而本系統(tǒng)暫時(shí)停留在只對(duì)文本特征信息進(jìn)行搜索和分類。通過(guò)建立一個(gè)搜索引擎,根據(jù)文本特征對(duì)文本信息實(shí)現(xiàn)搜索和分

34、類。這就是預(yù)期達(dá)到的目標(biāo)。</p><p>  四、論文詳細(xì)工作進(jìn)度和安排</p><p>  第七學(xué)期第10周至第15周(2010年12月27日前):文獻(xiàn)檢索和資料收集,完成畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述、開(kāi)題報(bào)告和外文翻譯;</p><p>  第八學(xué)期 第1周 至第3周(2011年03月19日前):撰寫(xiě)論文提綱,完成畢業(yè)論文(設(shè)計(jì))初稿;需求分析,系統(tǒng)設(shè)計(jì);<

35、;/p><p>  第八學(xué)期 第4周 至第11周(2011年04月11日前):詳細(xì)設(shè)計(jì);</p><p>  第八學(xué)期第12周至第13周(2011年04月18日前):完成應(yīng)用軟件系統(tǒng)的設(shè)計(jì),畢業(yè)論文定稿;</p><p>  第八學(xué)期第12周(2011年04月24日前):完善畢業(yè)論文(設(shè)計(jì))文檔,完成答辯準(zhǔn)備工作;</p><p>  第八學(xué)期

36、第13周:開(kāi)始參加畢業(yè)論文(設(shè)計(jì))答辯。</p><p><b>  五、主要參考文獻(xiàn)</b></p><p>  [1] 馮英健.什么是第三代搜索引擎[EB/OL].http://www. marketingman. net,2005-02-18.</p><p>  [2] 馬少平,張敏.信息檢索研究:過(guò)去三十年中我們走了多遠(yuǎn)[C].中

37、國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議.北京:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2006:11-17.</p><p>  [3] 周旭.知識(shí)經(jīng)濟(jì)[J].重慶市科學(xué)技術(shù)協(xié)會(huì),2004,12(2):50-54.</p><p>  [4] Tom M.Mitchell.Machine Learning[M]. New York:McGraw-Hill,1997.</p><p&g

38、t;  [5] 袁軍鵬,朱東華,李毅等.文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006(2):1—4.</p><p>  [6] 程紅莉,周寧,肖爽.文本驅(qū)動(dòng)的商務(wù)智能研究[J].情報(bào)科學(xué),2007(10):1525—1529.</p><p>  [7] 張忠平.文本挖掘(TextMining)[R].河北:燕京大學(xué)計(jì)算機(jī)科學(xué)與工程系,2002.03.18.</p&g

39、t;<p>  [8] 李效東,顧毓清.基于DOM的Web信息提取[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):526-533.</p><p>  [9] KollerD,Sahami M.Hierarchically classifying documents using very few words[J].ICML97,1997:170-178.</p><p>  [

40、10] Buckley C.Implementation of the SMART information retrieval system[R].New York:Cornell University, 1985.</p><p>  [11] 李樹(shù)青,韓忠愿.個(gè)性化搜索引擎原理與技術(shù)[M].北京:科學(xué)出版社,2008.</p><p>  [12] 夏迎炬.文本過(guò)濾關(guān)鍵技術(shù)研究[

41、D].上海:復(fù)旦大學(xué),2003.</p><p>  [13] 林冬雪.基于改進(jìn)向量空間模型的網(wǎng)絡(luò)信息檢索技術(shù)研究[D].四川:重慶大學(xué),2005.</p><p>  [14] Fung G,Mangasarian O L.Incremental support vector machine classification[C].Proceedings of the Second SI

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論