2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2024/2/29,第8章 文本挖掘與Web 數(shù)據(jù)挖掘,文本挖掘 Web數(shù)據(jù)挖掘>>案例五:跨語言智能學(xué)術(shù)搜索系統(tǒng)>>案例六:基于內(nèi)容的垃圾郵件識別>>,8.1 文本挖掘,8.1.1 分詞8.1.2 文本表示與詞權(quán)重計算8.1.3 文本特征選擇8.1.4 文本分類8.1.5 文本聚類8.1.6 文檔自動摘要,2024/2/29,8.1.1 分詞,分詞(詞切分)是指將連續(xù)的字序列按照一定

2、的規(guī)范重新組合成詞序列的過程英文:單詞之間以空格作為自然分界符,容易中文:詞沒有一個形式上的分界符,難中文分詞極具挑戰(zhàn)性的問題歧義切分問題:[研究/生]物;學(xué)生會|學(xué)生會玩魔方未登錄詞問題:新詞(木有、凡客體),人名等分詞法主要分為以下三大類:基于詞典的方法、基于統(tǒng)計的方法、基于語法分析的方法,2024/2/29,基于詞典的分詞法,正向最大匹配從左開始算起,最大是指從一個設(shè)定的長度開始匹配,直到第一個匹配成功就切分成為一個

3、詞逆向最大匹配與正向最大匹配相似,區(qū)別在于從右至左匹配例子:研究生命起源正向匹配結(jié)果:研究生/命/起源逆向匹配結(jié)果:研究/生命/起源特點:簡單,易實現(xiàn);正確率受詞典大小限制,2024/2/29,基于統(tǒng)計的分詞法,假設(shè):詞是穩(wěn)定的單字組合,直觀地,在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典(統(tǒng)計)分詞法基于統(tǒng)計模型的分詞方法是研究熱點,如基于

4、隱馬爾可夫的方法、基于最大熵的方法特點:精度高、詞性標注、命名實體識別;需要語料作支撐,2024/2/29,基于中文語法的分詞方法,通過讓計算機模擬人對句子的理解,達到識別詞的效果其基本思想就是在分詞的同時進行句法、語義分析,利用句法和語義信息來處理歧義現(xiàn)象包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分特點:由于漢語語言知識的籠統(tǒng)、復(fù)雜性,基于理解的分詞系統(tǒng)還處在試驗階段,2024/2/29,常見分詞工具,ICTCLAS中

5、國科學(xué)院計算技術(shù)研究所開發(fā)采用層疊隱馬爾可夫模型中文分詞,詞性標注,命名實體識別,新詞識別支持C/C++/C#/Delphi/Java等主流開發(fā)語言imdict-Chinese-analyzerICTCLAS中文分詞程序基于Java的重新實現(xiàn)采用基于隱馬爾科夫模型的方法直接為Lucene搜索引擎提供簡體中文分詞支持,2024/2/29,常見分詞工具(續(xù)),IKAnalyzer采用特有的“正向迭代最細粒度切分算法”基于J

6、ava語言開發(fā)的輕量級開源分詞工具包60萬字/秒的高速處理能力簡易中文分詞系統(tǒng)SCWShightman 個人開發(fā)采用標準C開發(fā)提供 C接口、PHP擴展(源碼、WIN32的DLL文件),2024/2/29,常見分詞工具(續(xù)),盤古分詞基于.net Framework的中英文分詞組件中文未登錄詞識別、人名識別、多元分詞等功能支持英文專用詞識別、英文原詞輸出、英文大小寫同時輸出等單線程分詞速度為390 KB/s,雙線程分詞速

7、度為690 KB/s( Core Duo 1.8 GHz )其它 Paoding(庖丁解牛分詞)、HTTPCWS、MMSEG4J以及CC-CEDICT等,2024/2/29,8.1.2 文本表示與詞權(quán)重計算,目前文本表示主要是采用向量空間模型(Vector Space Model,VSM)每個文本被表示為在一個高維詞條空間中的一個向量詞條權(quán)重wi,j一般采用TF×IDF方法來計算得到,2024/2/29,,,,,8.

8、1.3 文本特征選擇,文本特征選擇是根據(jù)某種準則從原始特征中選擇部分最有區(qū)分類別能力的特征主要分為無監(jiān)督和有監(jiān)督的方法常用的方法有以下幾種文檔頻率(Document Frequency,DF)單詞權(quán)(Term Strength,TS)信息增益(Information Gain,IG)互信息(Mutual Information,MI)期望交叉熵(Expected Cross Entropy,ECE),2024/2/29,基

9、于文檔頻率的方法,文檔頻率是指所有訓(xùn)練文本中出現(xiàn)某個特征詞的頻率是一種無監(jiān)督的方法通常會分別設(shè)置一個小的閾值和大的閾值來過濾一些低頻詞和頻數(shù)特別高的詞特點優(yōu)點:簡單、易行缺點:低頻詞有時能很好反映類別信息;忽略了特征詞在文檔中出現(xiàn)的次數(shù),2024/2/29,基于信息增益的方法,根據(jù)某個特征詞t在一篇文檔中出現(xiàn)或者不出現(xiàn)的次數(shù)來計算為分類所能提供的信息量,并根據(jù)該信息量大小來衡量特征詞的重要程度,進而決定特征詞的取舍信息增

10、益是最常用的文本特征選擇方法之一特點:該方法只考察特征詞對整個分類的區(qū)分能力,不能具體到某個類別上,2024/2/29,,8.1.4 文本分類,文本自動分類(簡稱“文本分類”)是在預(yù)定義的分類體系下,根據(jù)文本的特征(詞條或短語),將給定文本分配到特定一個或多個類別的過程基本步驟可以分為三步:將預(yù)先分過類的文本作為訓(xùn)練集輸入構(gòu)建分類模型對新輸入的文本進行分類常見的算法包括:線性分類器、k最近鄰分類器、樸素貝葉斯、決策樹、支持向

11、量機分類器,2024/2/29,樸素貝葉斯分類器,貝葉斯分類算法有兩種模型:多變量伯努利事件模型和多項式事件模型多變量伯努利事件模型特征詞在文本中出現(xiàn)則權(quán)重為1,否則權(quán)重為0。不考慮特征詞的出現(xiàn)順序,忽略詞出現(xiàn)的次數(shù)多項式事件模型一篇文檔被看作是一系列有序排列的詞的集合,2024/2/29,,,,,,,常用基準語料,Reuters-21578是最常用的公開英文語料庫21578篇新聞報道135個類別20 Newsgroup

12、s是重要的公開英文語料庫大致20000篇新聞組文檔6個不同的主題以及20個不同類別的新聞組TanCorp是公開的中文基準語料庫收集文本14150篇分為兩個層次。第一層12個類別,第二層60個類別,2024/2/29,常用基準語料(續(xù)),復(fù)旦大學(xué)中文文本分類語料庫測試語料共9833篇文檔,訓(xùn)練語料共9804篇文檔包含20個類別其它語料庫還包括OHSUMED、WebKB、TREC系列和TDT系列等,2024/2/29,模型評

13、估,文本自動分類通常是不平衡的分類任務(wù),常用的分類準確率(Accuracy)指標并不合適一般使用每個類的F-measure值以及全部類F-measure值的平均來評估算法的性能其中,r表示每個類的召回率(Recall),p表示每個類的精度(Precision),通常β取值為1,也就是經(jīng)常被使用到的F1值,2024/2/29,,模型評估(續(xù)),語料上的整體性能,通常采用微平均和宏平均方法微平均是根據(jù)所有類準確劃分文本個數(shù)和錯誤劃

14、分文本個數(shù)來計算精度和召回率宏平均則是計算每個類別得到的精度和召回率的平均值在不平衡數(shù)據(jù)分類上,宏平均方法更能反映出分類器的性能。,2024/2/29,8.1.5 文本聚類,自動化程度較高的無監(jiān)督機器學(xué)習(xí)方法,不需要預(yù)先對文檔手工標注類別主要任務(wù)是把一個文本集分成若干個稱為簇的子集,然后在給定的某種相似性度量下把各個文檔分配到與最其相似的簇中相似性度量方法在此過程起著至關(guān)重要的作用,2024/2/29,文本相似度計算,方法主要分

15、為兩大類:基于語料庫統(tǒng)計的方法和基于語義理解的方法基于語料庫統(tǒng)計的方法:基于漢明距離和基于空間向量模型的方法漢明距離用來描述兩個等長碼字對應(yīng)位置的不同字符的個數(shù),從而計算出兩個碼字的相似度基于空間向量模型方法是一種簡單有效的方法,2024/2/29,,,文本相似度計算(續(xù)),基于語義理解的方法:考慮語義信息的文本相似度計算方法該方法主要分為三大類:詞語相似度、句子相似度、段落相似度計算詞語相似度往往需要一部語義詞典作為支持,目

16、前使用頻率最高的語義詞典是《知網(wǎng)》句子相似度計算要通過利用語法結(jié)構(gòu)來分析漢語句子機構(gòu)相當復(fù)雜,段落相似度計算更復(fù)雜,2024/2/29,文本聚類過程,以K-means算法詳細介紹文本聚類的過程任意選擇k個文本作為初始聚類中心Repeat 計算輸入文本與簇之間的相似度,將文本分配到最相似的簇中 更新簇質(zhì)心向量Until 簇質(zhì)心不再發(fā)生變化,2024/2/29,評估指標,外部質(zhì)量準則的聚類熵、聚類精度文本分類方法的召回率

17、、精度、F-measure值文本聚類算法整體性能的評估宏平均或微平均F-measure值聚類熵,2024/2/29,8.1.6 文檔自動摘要,文檔自動摘要,簡稱自動文摘,是指利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內(nèi)容的簡單連貫的短文處理過程大致可分為三個步驟:文本分析過程信息轉(zhuǎn)換過程重組源表示內(nèi)容,生成文摘并確保文摘的連貫性,2024/2/29,文檔自動摘要的類型,按不同標準,文檔自動摘要可分為不同類型:

18、根據(jù)文摘的功能劃分,指示型文摘、報道型文摘和評論型文摘根據(jù)輸入文本的數(shù)量劃分,單文檔文摘和多文檔文摘根據(jù)原文語言種類劃分,單語言文摘和跨語言文摘根據(jù)文摘和原文的關(guān)系劃分,摘錄型文摘和理解型文摘根據(jù)文摘的應(yīng)用劃分,普通型文摘和面向用戶查詢文摘,2024/2/29,相關(guān)技術(shù),文檔自動摘要技術(shù)主要有以下幾種類型自動摘錄法最大邊緣相關(guān)自動文摘法基于理解的自動文摘基于信息抽取的自動文摘基于結(jié)構(gòu)的自動文摘基于LSI語句聚類的自

19、動文摘,2024/2/29,相關(guān)技術(shù)(續(xù)),自動摘錄法將文本看成是句子的線性排列,將句子看成詞的線性排列,然后從文本中摘錄最重要的句子作為文摘句最大邊緣相關(guān)法從文本中挑選出與該文本最相關(guān)的,同時與已挑選出的所有代表句最不相關(guān)的句子作為下一個代表句基于理解的方法利用語言學(xué)知識獲取語言結(jié)構(gòu),更重要的是利用領(lǐng)域知識進行判斷、推理,得到文摘的語義表示,從語義表示中生成摘要,2024/2/29,相關(guān)技術(shù)(續(xù)),基于信息抽取的方法首先根據(jù)領(lǐng)域知

20、識建立該領(lǐng)域的文摘框架,然后使用信息抽取方法先對文本進行主題識別,再對文本中有用片段進行有限深度的分析,最后利用文摘模板將文摘框架中內(nèi)容轉(zhuǎn)換為文摘輸出基于結(jié)構(gòu)的方法將文章視為句子的關(guān)聯(lián)網(wǎng)絡(luò),與很多句子都有聯(lián)系的中心句被確認為文摘句,句子間的關(guān)系可通過詞間關(guān)系、連接詞等確定,2024/2/29,相關(guān)技術(shù)(續(xù)),基于LSI語句聚類的方法利用潛在語義索引LSI(Latent Semantic Indexing),獲得特征項和文本的語義結(jié)構(gòu)表

21、示。在語義空間考慮特征項權(quán)重不是依賴于單純的詞頻信息,而是考慮到特征項對于文本主題的表現(xiàn)能力以及在整個文本集中使用的模式。,2024/2/29,相關(guān)技術(shù)(續(xù)),以上方法普遍會面臨以下三個關(guān)鍵問題的挑戰(zhàn)文檔冗余信息的識別和處理重要信息的辨認生成文摘的連貫性,2024/2/29,性能評估,自動文摘包含標準文摘的信息比率是內(nèi)部測評中對文摘內(nèi)容完整性的一種重要測評幾個主流的評價方法:單文檔文摘評價系統(tǒng)(Summary Evaluati

22、on Environment)ROUGEPyramidBE(Basic Elements)方法,2024/2/29,8.2 Web數(shù)據(jù)挖掘,8.2.1 Web內(nèi)容挖掘8.2.2 Web使用挖掘8.2.3 Web結(jié)構(gòu)挖掘,2024/2/29,8.2.1 Web內(nèi)容挖掘,Web內(nèi)容挖掘是從Web頁面的文本、圖像、視頻和組成頁面的其它內(nèi)容中提取信息的過程Web內(nèi)容挖掘在Web搜索、垃圾郵件過濾、敏感信息過濾、情報分析、數(shù)字圖書館建

23、設(shè)、網(wǎng)絡(luò)輿情監(jiān)控等方面有著重要的應(yīng)用價值文本挖掘技術(shù)可應(yīng)用于Web頁面的文本挖掘中圖像和視頻等內(nèi)容的挖掘是多媒體數(shù)據(jù)挖掘中的重要部分主要方法也是數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則,2024/2/29,8.2.2 Web使用挖掘,Web使用挖掘通過挖掘Web日志記錄,發(fā)現(xiàn)用戶訪問Web頁面的模式可以識別電子商務(wù)的潛在客戶增強對最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量和交互改進Web服務(wù)器系統(tǒng)性能,2024/2/29,數(shù)據(jù)收集,Web使用記

24、錄挖掘中的主要數(shù)據(jù)來源是服務(wù)器日志文件,主要可分為以下四種類型數(shù)據(jù)使用記錄數(shù)據(jù):首要的數(shù)據(jù)來源內(nèi)容數(shù)據(jù):由文字材料和圖片組成結(jié)構(gòu)數(shù)據(jù):從設(shè)計者的角度所看到的網(wǎng)站內(nèi)容組織結(jié)構(gòu)用戶數(shù)據(jù):包括注冊用戶人口統(tǒng)計信息(如性別、年齡、職業(yè)等)、用戶對各種對象的訪問率、用戶的購買記錄或歷史訪問記錄等,2024/2/29,預(yù)處理,2024/2/29,,Web使用模式的發(fā)現(xiàn)和分析,會話及訪問者分析在已預(yù)處理的會話數(shù)據(jù)中,發(fā)現(xiàn)訪問者行為的知識使

25、用記錄聚類分析用戶聚類:用戶聚類的目的是對具有相同瀏覽模式的用戶進行分組頁面聚類:在基于使用記錄數(shù)據(jù)的聚類中,被經(jīng)常訪問的項目或購買記錄可能被自動組織成一個個分組,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),關(guān)聯(lián)規(guī)則及相關(guān)度分析可以找到普遍在一起被訪問或被購買的頁面或項目的分組可以用在Web個性化推薦系統(tǒng)中在電子商務(wù)的推薦系統(tǒng)中使用關(guān)聯(lián)規(guī)則,目標用戶的偏好是符合每個規(guī)則前項X中的項目,而在右側(cè)的項目所符合的規(guī)則按照置

26、信度排序,這個列表中排名靠前的N個項目便可考慮推薦給目標用戶問題:若數(shù)據(jù)集稀疏,則無法給出任何推薦解決方案:協(xié)同過濾,2024/2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),導(dǎo)航模式分析要發(fā)現(xiàn)或分析用戶導(dǎo)航模式,一種方法是將網(wǎng)站中導(dǎo)航活動建模成Markov模型Markov模型:每個頁面訪問可以被表示成一個狀態(tài),兩個狀態(tài)間的轉(zhuǎn)換概率可以表示用戶從一個狀態(tài)到另一個狀態(tài)的可能性。這種表示方式允許計算一些有用的用戶或網(wǎng)站的度量,2024/

27、2/29,Web使用模式的發(fā)現(xiàn)和分析(續(xù)),基于Web用戶事務(wù)的分類和預(yù)測在Web使用實例中,基于用戶人口統(tǒng)計信息以及他們的購買活動,分類技術(shù)可以將用戶分成高購買傾向和非高購買傾向兩類協(xié)同過濾是Web領(lǐng)域分類和預(yù)測中的一個重要應(yīng)用k近鄰分類器(kNN)是一種簡單有效的協(xié)同過濾方法,通過計算當前用戶模型和以往用戶模型的相關(guān)度,預(yù)測用戶訪問率或購買傾向,以找到數(shù)據(jù)庫中有著相似特性和偏好的用戶,2024/2/29,8.2.3 Web結(jié)構(gòu)

28、挖掘,Web結(jié)構(gòu)挖掘就是指通過分析不同網(wǎng)頁之間的超鏈接結(jié)構(gòu),網(wǎng)頁內(nèi)部用HTML、XML表示的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等,發(fā)現(xiàn)許多蘊含在網(wǎng)絡(luò)內(nèi)容之外的對我們有潛在價值的模式和知識的過程Web頁之間的超鏈接結(jié)構(gòu)中包含了許多有用的信息。當網(wǎng)頁A到網(wǎng)頁B存在一個超鏈接時,則說明網(wǎng)頁A的作者認為網(wǎng)頁B的內(nèi)容非常重要,且兩個網(wǎng)頁的內(nèi)容具有相似的主題,2024/2/29,PageRank算法,目前對Web結(jié)構(gòu)進行分析的主要方法是將W

29、eb看作有向圖,然后根據(jù)一定的啟發(fā)規(guī)則,用圖論的方法對其進行分析PageRank 算法是超鏈接結(jié)構(gòu)分析中最成功的代表之一搜索引擎Google就是通過利用該算法和anchor text標記、詞頻統(tǒng)計等因素相結(jié)合的方法,對檢索出的大量結(jié)果進行相關(guān)度排序,將最權(quán)威的網(wǎng)頁盡量排在前面,2024/2/29,PageRank算法(續(xù)),PageRank算法假設(shè)從一個網(wǎng)頁指向另一個網(wǎng)頁的超鏈接是一種對目標網(wǎng)站權(quán)威的隱含認可,因此,一個頁面的入度

30、越大則它的權(quán)威就越高另一方面,指向網(wǎng)頁自身也有權(quán)威值,一個擁有高權(quán)威值網(wǎng)頁指向的網(wǎng)頁比一個擁有低權(quán)威值網(wǎng)頁指向的網(wǎng)頁更加重要,如果一個網(wǎng)頁被其它重要網(wǎng)頁所指向,那么該網(wǎng)頁也很重要,2024/2/29,HITS算法,Web的鏈接具有以下特征有些鏈接具有注釋性,也有些鏈接是起導(dǎo)航或廣告作用。有注釋性的鏈接才用于權(quán)威判斷基于商業(yè)或競爭因素考慮,很少有Web網(wǎng)頁指向其競爭領(lǐng)域的權(quán)威網(wǎng)頁權(quán)威網(wǎng)頁很少具有明顯的描述,例如Google主頁不會

31、明確給出Web搜索引擎之類的描述信息Page Rank算法中對于向外鏈接的權(quán)值貢獻是平均的,但根據(jù)以上Web的鏈接特征可看出平均地分布權(quán)值不符合鏈接的實際情況,2024/2/29,HITS算法(續(xù)),康奈爾大學(xué)博士J. Kleinberg提出的HITS (Hypertext Induced Topic Search)算法在算法中引入了另外一種網(wǎng)頁,稱為Hub網(wǎng)頁Hub網(wǎng)頁是提供指向權(quán)威網(wǎng)頁(Authority)鏈接集合的Web網(wǎng)頁

32、,它本身可能并不重要,但是Hub網(wǎng)頁卻提供了指向就某個主題而言最為重要的站點的鏈接集合Kleinberg認為網(wǎng)頁的重要性應(yīng)該依賴于用戶提出的檢索主題,而且對每一個網(wǎng)頁應(yīng)該將其Authority權(quán)重和Hub權(quán)重分開來考慮,2024/2/29,HITS算法(續(xù)),根據(jù)頁面之間的超鏈接結(jié)構(gòu),將頁面分為Authority頁和Hub頁一般來說,好的Hub網(wǎng)頁指向許多好的Authority網(wǎng)頁,好的Authority網(wǎng)頁是由許多好的Hub網(wǎng)頁指

33、向的Web網(wǎng)頁。這種Hub與Authority網(wǎng)頁之間的相互加強關(guān)系,可用于Authority網(wǎng)頁的發(fā)現(xiàn)和Web結(jié)構(gòu)和資源的自動發(fā)現(xiàn),這就是HITS算法的基本思想,2024/2/29,HITS算法(續(xù)),HITS算法如下將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎從搜索引擎返回的網(wǎng)頁中取前n(在介紹的HITS論文中采用n=200)個網(wǎng)頁作為根集(root set),用S表示通過向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁將S擴展成基集T

34、接著算法對基集T內(nèi)部的每個網(wǎng)頁進行處理,計算T中每個網(wǎng)頁的Authority值和Hub值迭代計算并輸出一組具有較大Hub值的頁面和具有較大Authority值的頁面,2024/2/29,PageRank與HITS算法的對比,處理對象和算法效率不同PageRank算法可以離線計算每個網(wǎng)頁的PageRank值,能對用戶查詢產(chǎn)生快速的響應(yīng)HITS算法由根集S生成基集T的時間開銷很昂貴,實時性較差傳播模型不同PageRank算法是基

35、于隨機游走類型的HITS算法將網(wǎng)頁分為Authority網(wǎng)頁和Hub網(wǎng)頁,Authority網(wǎng)頁和Hub網(wǎng)頁交互傳播,相互加強,2024/2/29,PageRank與HITS算法的對比(續(xù)),反網(wǎng)頁作弊能力不同PageRank算法能較好地防止網(wǎng)頁作弊的發(fā)生HITS算法則沒有這樣好的反作弊能力,因為網(wǎng)頁擁有者可以很容易地在自己的網(wǎng)頁上添加大量指向權(quán)威網(wǎng)頁的鏈接,進而影響HITS算法得到的Authority值和Hub值“主題漂移”問

36、題HITS算法存在“主題漂移”問題PageRank則較好地克服了“主題漂移”問題,2024/2/29,8.3 跨語言智能學(xué)術(shù)搜索系統(tǒng),8.3.1 混合語種文本分詞8.3.2 基于機器翻譯的跨語言信息檢索8.3.3 不同語種文本的搜索結(jié)果聚類8.3.4 基于聚類的個性化信息檢索8.3.5 基于聚類的查詢擴展8.3.6 其它檢索便利工具8.3.7 系統(tǒng)性能評估,2024/2/29,8.3.1 混合語種文本分詞,漢語詞法分析系

37、統(tǒng)ICTCLAS中文分詞;詞性標注;關(guān)鍵詞提??;命名實體識別;未登錄詞識別分詞正確率高達97.58%(973專家組評測);未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%;處理速度為31.5Kbytes/sLucene高性能文本分析器,可根據(jù)單詞間的空格進行分詞大小寫轉(zhuǎn)換、不規(guī)則符號過濾、停用詞過濾(Stop words filtering)、詞干提取(Stemming),2024/2/29,,整合ICTCL

38、AS和Lucene混合語種分詞策略:輸入一個文本; 采用ICTCLAS對所輸入文本進行中文分詞以及詞性標注處理;提取標注為“x”詞性字符串,采用Lucene標準分析器(StandardAnalyzer)進行第二趟分詞,對輸入字符串進行大小寫轉(zhuǎn)換、不規(guī)則符號過濾、停用詞過濾、詞干提?。晃谋臼欠褚呀?jīng)處理完,如果否則轉(zhuǎn)(1);結(jié)束。,2024/2/29,8.3.2 基于機器翻譯的跨語言信息檢索,基于統(tǒng)計的機器翻譯方法已經(jīng)具備用戶可接

39、受的準確率Google翻譯是基于統(tǒng)計方法的機器翻譯研究結(jié)合Google翻譯和元搜索技術(shù)實現(xiàn)基于機器翻譯的跨語言學(xué)術(shù)檢索,2024/2/29,,實現(xiàn)流程:用戶輸入查詢詞并選擇目標語言;若目標語言與源語言(查詢詞所屬語言)相同則轉(zhuǎn)(3),否則將查詢詞翻譯成目標語言,作為新的查詢詞;將查詢詞提交到搜索源;返回搜索結(jié)果。,2024/2/29,8.3.3 不同語種文本的搜索結(jié)果聚類,對不同語種文本采用不同的聚類算法:使用Lingo搜

40、索結(jié)果聚類算法對西語文本進行聚類處理采用一趟聚類算法對中文搜索返回結(jié)果進行增量多層聚類,2024/2/29,8.3.4 基于聚類的個性化信息檢索,個性化信息檢索主要是通過用戶興趣模型對搜索返回結(jié)果進行個性化重排序和個性化過濾返回結(jié)果等方式實現(xiàn)介紹方法的流程:觀察用戶對聚類結(jié)果的點擊行為,實時提取用戶的興趣偏好生成并更新用戶實時興趣模型采用余弦夾角公式計算興趣模型與搜索結(jié)果相似度按照相似度從大到小對其進行重排序,以實現(xiàn)個性化的

41、檢索需求,2024/2/29,8.3.5 基于聚類的查詢擴展,通過查詢擴展技術(shù),搜索引擎系統(tǒng)能較好地理解用戶的查詢意圖采用基于局部分析的聚類分析方法選取可讀性強的聚類結(jié)果類標簽作為擴展詞提供交互式的擴展詞選擇方式,2024/2/29,8.3.6 其它檢索便利工具,面向文獻來源網(wǎng)站(URL)的層次歸類方法“.com”、“.cn”“.edu.cn”“gdufs.edu.cn”基于文獻發(fā)表期刊或者會議的歸類方法引用文獻聚類功能

42、按相似度排序、按時間排序、按被引用次數(shù)排序,2024/2/29,8.3.7 系統(tǒng)性能評估,系統(tǒng)的分詞速度為111 kb/sMT CLIR(Machine Translation CLIR)的短查詢詞、中查詢詞和長查詢平均準確率分別為0.4446、0.5536和0.617MCIBC和Lingo的微平均F-Measure值分別達到了0.4917和0.5178個性化排序方法得到了較高的P@5、P@10和P@20值(均高于0.5),20

43、24/2/29,部分系統(tǒng)截圖,2024/2/29,2024/2/29,,2024/2/29,2024/2/29,,2024/2/29,,8.4 基于內(nèi)容的垃圾郵件識別,8.4.1 垃圾郵件識別方法簡介8.4.2 基于內(nèi)容的垃圾郵件識別方法工作原理8.4.3 一種基于聚類的垃圾郵件識別方法,2024/2/29,8.4.1 垃圾郵件識別方法簡介,主流的垃圾郵件識別技術(shù)可分為郵件服務(wù)器端防范技術(shù)和郵件客戶端防范技術(shù)兩大類郵件服務(wù)器端防范

44、技術(shù):基于IP地址、域名和 “(黑)白名單”過濾技術(shù);基于信頭、信體、附件的內(nèi)容過濾技術(shù);基于連接頻率的動態(tài)規(guī)則技術(shù);郵件客戶端防范技術(shù):充分利用黑名單,白名單功能;慎用“自動回復(fù)”功能;盡量避免泄露郵件地址;,2024/2/29,基于內(nèi)容的垃圾郵件識別技術(shù),基于內(nèi)容的垃圾郵件識別技術(shù)是郵件服務(wù)器端防范技術(shù)的主流技術(shù),以上提到的基于信頭、信體、附件的內(nèi)容過濾技術(shù)是典型的基于內(nèi)容的方法這類型方法的典型代表有Bayes方法、k

45、NN、支持向量機SVM、Rocchio、神經(jīng)網(wǎng)絡(luò)等,2024/2/29,8.4.2 基于內(nèi)容的垃圾郵件識別方法工作原理,一封標準格式的電子郵件包含有郵件頭部(mail head)和郵件體(mail body)兩部分郵件頭部包括發(fā)件人,收件人,抄送人,發(fā)信日期,主題,附件等信息郵件體包括郵件正文信息實例圖如下:,2024/2/29,2024/2/29,垃圾郵件過濾的基礎(chǔ),在不考慮附件、圖片化文字等問題,只簡單考慮郵件中包含的文本內(nèi)容

46、情況下,這類垃圾郵件大概占總垃圾郵件數(shù)量的80%垃圾郵件過濾的基礎(chǔ)是識別出所接收到郵件是正常郵件還是垃圾郵件,而這個識別過程可以看作是一種二類的文本分類問題,即正常郵件和垃圾郵件兩個類別文本的識別,2024/2/29,識別方法的主要步驟,基于內(nèi)容的垃圾郵件識別方法的主要步驟:將解碼并格式化后的電子郵件視為文本;分詞并使用相應(yīng)的文本表示方法來表示文本,較多的方法采用向量空間模型 VSM;基于已有的垃圾郵件和正常郵件語料庫,采用文本

47、分類算法建立垃圾郵件識別模型;基于識別模型判別新收到的郵件是否為垃圾郵件,2024/2/29,8.4.3 一種基于聚類的垃圾郵件識別方法,介紹的方法首先采用聚類算法學(xué)習(xí)訓(xùn)練語料,并建立識別模型,然后再結(jié)合kNN分類方法思想對測試語料決策分類,具有很好的識別準確度以及效率并可以通過聚類算法增量更新模型,2024/2/29,建立識別模型,利用一趟聚類算法建立識別模型,過程如下:初始時, 簇集合為空,讀入一個新的文本;以這個對象構(gòu)造一

48、個新的簇,該文本的類別標識作為新簇的類別標識;若文本已被處理完,則轉(zhuǎn)(6),否則讀入新對象, 計算并選擇最大的相似度的簇;若最大相似度小于給定半徑閾值r,轉(zhuǎn)(2);否則將該文本并入具有最大相似度的簇,轉(zhuǎn)(3);采用投票機制對聚類得到的簇進行標識;得到聚類結(jié)果(識別模型),建模階段結(jié)束。,2024/2/29,決策分類,結(jié)合kNN分類方法思想,利用識別模型對測試語料進行分類處理:給定一個測試文本x,使用公式(1)計算模型m0的每

49、個簇的打分,即(1)(2)找出k1(first_k_value)個最近鄰的簇,并在這些簇中查找k2(second_k_value)個最近鄰的文本基于得到的k2最近鄰文本集,使用公式(2)給其打分,并將x判定為得分最高的類別,2024/2/29,,,模型更新,對于新添加的訓(xùn)練語料,采用建立模型一樣的方法對新添加的訓(xùn)練文本進行增量式聚類,更新聚類結(jié)果,以得到新的識別模型,2024/2/29,部分算法性能測試結(jié)果,2024/2/29,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論