版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘算法,Wang Ye 2006.8,一、概念和術語,1.1 數據挖掘 / 知識發(fā)現(1)數據挖掘是從存放在數據集中的大量數據挖掘出有趣知識的過程。(2)數據挖掘,又稱為數據庫中知識發(fā)現(Knowledge Discovery in Databases)或知識發(fā)現,它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的非平凡過程,它與數據倉庫有著密切的聯系。(3)廣義的數據挖掘是指知識發(fā)現的全過程;狹義的數據挖掘是
2、指統(tǒng)計分析、機器學習等發(fā)現數據模式的智能方法,即偏重于模型和算法。(4)數據庫查詢系統(tǒng)和專家系統(tǒng)不是數據挖掘!在小規(guī)模數據上的統(tǒng)計分析和機器學習過程也不應算作數據挖掘。,1.2 機器學習(1)對于某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨著經驗E而自我完善,那么這個計算機程序被稱為在從經驗E學習。(2)機器學習是知識發(fā)現的一種方法,是指一個系統(tǒng)通過執(zhí)行某種過程而改進它處理某一問題的能力。,1.3 數據挖掘的對
3、象(1)關系型數據庫、事務型數據庫、面向對象的數據庫;(2)數據倉庫 / 多維數據庫;(3)空間數據(如地圖信息)(4)工程數據(如建筑、集成電路的信息)(5)文本和多媒體數據(如文本、圖象、音頻、視頻數據)(6)時間相關的數據(如歷史數據或股票交換數據)(7)萬維網(如半結構化的HTML,結構化的XML以及其他網絡信息),1.4 數據挖掘的步驟(1)數據清理(消除噪音或不一致數據,補缺);(2)數據集成(多種數據源可
4、以組合在一起);(3)數據選擇(從數據庫中提取相關的數據);(4)數據變換(變換成適合挖掘的形式);(5)數據挖掘(使用智能方法提取數據模式);(6)模式評估(識別提供知識的真正有趣模式);(7)知識表示(可視化和知識表示技術)。,1.5 支持數據挖掘的關鍵技術(1)數據庫 / 數據倉庫 / OLAP(2)數學 / 統(tǒng)計(回歸分析:多元回歸、自回歸;判別分析:Bayes判別、Fisher判別、非參數判別;主成分分析、相關性
5、分析;模糊集;粗糙集)(3)機器學習(聚類分析;關聯規(guī)則;決策樹;范例推理;貝葉斯網絡;神經網絡;支持向量機;遺傳算法)(4)可視化:將數據、知識和規(guī)則轉化為圖形表現的形式。,1.6 數據倉庫(1)數據倉庫是一個面向主題的、集成的、隨時間變化的、非易失性數據的集合,用于支持管理人員的決策。(2)數據倉庫是一種多個異種數據源在單個站點以統(tǒng)一的模式組織的存儲,以支持管理決策。數據倉庫技術包括數據清理、數據集成和聯機分析處理(OLAP
6、)。(3)數據倉庫的邏輯結構是多維數據庫。數據倉庫的實際物理結構可以是關系數據存儲或多維數據方(Cube)。(4)數據方是由維度(Dimension)和度量(Measure)定義的一種數據集,度量存放在由維度索引的數據方單元中。維度對應于模式中的屬性組,度量對應于與主題相關的事實數據。數據方的物化是指預計算并存儲全部或部分單元中的度量。,1.7 數據倉庫的模型(1)星形模式:最常見模型;其中數據倉庫包括一個大的、包含大批數據、不含
7、冗余的中心表(事實表);一組小的附屬表(維表),每維一個。(2)雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,因而把數據進一步分解到附加的表中。(3)星系模式:多個事實表共享維表。這種模式可以看作星形模式集,因此稱為星系模式,或事實星座。,1.8 典型的OLAP操作(1)OLAP是一種多維數據分析技術。包括匯總、合并和聚集等功能,以及從不同的角度觀察信息的能力。(2)上卷:從某一維度的更高概念層次觀察數據方,獲得更
8、概要的數據。它通過沿維的概念分層向上或維歸約來實現。(3)下鉆:下鉆是上卷的逆操作。它從某一維度的更低概念層次觀察數據方,獲得更詳細的數據。下鉆可以通過沿維的概念分層向下或引入新的維來實現。(4)切片和切塊:切片操作在給定的數據方的選擇一個維的部分屬性,獲得一個較小的子數據方。切塊操作通過對選擇兩個或多個維的部分屬性,獲得一個較小的子數據方。(5)轉軸:是一種改變數據方二維展現形式的操作。它將數據方的二維展現中的某些維度由行改為列
9、,或由列改為行。,二、數據準備,現實世界的數據是不完整的(有些感興趣的屬性缺少屬性值,或僅包含聚集數據),含噪音的(包含錯誤,或存在偏離期望的異常值),不一致的(例如,用于商品分類的部門編碼存在差異)。需要數據清理、數據集成、數據選擇、數據變換等技術對數據進行處理。,2.1 維歸約 / 特征提取2.1-1 決策樹歸約(1)決策樹歸約構造一個類似于流程圖的結構:其每個非葉子結點表示一個屬性上的測試,每個分枝對應于測試的一個輸出;每個
10、葉子結點表示一個決策類。(2)在每個結點,算法選擇“當前對分類最有幫助”的屬性,出現在樹中的屬性形成歸約后的屬性子集。,2.1-2 粗糙集歸約(1)粗糙集理論在數學意義上描述了知識的不確定性,它的特點是把用于分類的知識嵌入集合內,使分類與知識聯系在一起。(2)知識的粒度、不可分辨關系、上近似、下近似、邊界等概念見下圖。,2.1-2 粗糙集歸約(續(xù))(3)令Q代表屬性的集合 。q∈Q是一個屬性,如果IND(Q?q) = IND(Q
11、),則q在S中不是獨立的;否則稱q在S中是獨立的。(4)若集合滿足IND(R) = IND(Q)且R中的每一個屬性都是獨立的,則R被稱為Q的一個“約簡”,記作R = RED(Q)。(5)約簡可以通過刪除冗余的(不獨立的)屬性而獲得,約簡包含的屬性即為“對分類有幫助”的屬性。,2.2 數據變換2.2-1 歸一化與模糊化有限區(qū)間的歸一化:無限區(qū)間的歸一化:模糊隸屬度:,2.2-2 核函數(1)核函數的基本思想是將在低維
12、特征向量線性不可分的數據映射到線性可分的高維特征空間中去。(2)映射可以是顯式的,也可以是隱式的。顯式映射即找到一個映射關系f,使高維空間的特征向量f (x)可以被直接計算出來。(3)隱式映射,即引入一個核函數進行整體處理,就避免了對的直接求f (x)的計算困難。核函數即某高維特征空間中向量的內積,是核矩陣中的一個元素。(4)并不是所有的實值函數f (x)都可以作為空間映射的核函數,只有f (x)是某一特征空間的內積時,即符合M
13、ercer條件,它才能成為核函數。,,,2.2-2 核函數(續(xù))多項式函數: 高斯(RBF)函數: 多層感知機函數:低維空間向量映射到高維空間向量舉例:,,2.3 數據壓縮2.3-1 離散化離散化的用途:(1)適應某些僅接受離散值的算法;(2)減小數據的尺度。離散化的方法包括幾下幾種。(1)等距分割;(2)聚類分割;(3)直方圖分割;(4)基于熵的分割;
14、(5)基于自然屬性的分割。,2.3-2 回歸回歸和對數線性模型可以用來近似給定的數據。在線性回歸中,用一條直線來模擬數據的生成規(guī)則。多元回歸是線性回歸的擴展,涉及多個預測變量。在多項式回歸中,通過對變量進行變換,可以將非線性模型轉換成線性的,然后用最小平方和法求解。,,,,2.3-2 回歸(續(xù))利用線性回歸可以為連續(xù)取值的函數建模。廣義線性模型則可以用于對離散取值變量進行回歸建模。在廣義線性模型中,因變量Y 的變化速率是Y
15、 均值的一個函數;這一點與線性回歸不同。常見的廣義線性模型有:對數回歸和泊松回歸。對數回歸模型是利用一些事件發(fā)生的概率作為自變量所建立的線性回歸模型。泊松回歸模型主要是描述數據出現次數的模型,因為它們常常表現為泊松分布。,2.3-3 主成分分析(PCA)PCA算法搜索c個最能代表數據的k-維正交向量;這里c ? k。這樣,原來的數據投影到一個較小的空間,導致數據壓縮。步驟如下: (1)對輸入數據歸一化,使得每個屬性都落入相同的區(qū)
16、間。(2)PCA計算c個規(guī)范正交向量,作為歸一化輸入數據的基。這些是單位向量,每一個都垂直于另一個:稱為主成分。輸入數據是主要成分的線性組合。(3)對主成分按“意義”或強度降序排列,選擇部分主成分充當數據的一組新坐標軸 。,2.3-4 離散小波變換(DWT)離散小波變換是一種線性信號處理技術。該技術方法可以將一個數據向量轉換為另一個數據向量(為小波相關系數);且兩個向量具有相同長度??梢陨釛夀D換后的數據向量中的一些小波相關系數。
17、保留所有大于用戶指定閾值的小波系數,而將其它小波系數置為0,以幫助提高數據處理的運算效率。這一技術方法可以在保留數據主要特征情況下除去數據中的噪聲,因此該方法可以有效地進行數據清洗。給定一組小波相關系數,利用離散小波變換的逆運算還可以近似恢復原來的數據。,2.3-4 離散小波變換(續(xù))常用的小波函數包括Haar系列, Daubechies系列,Moret系列,Sym系列,Meyer系列,Coif系列。,2.3-5 潛在語義分析潛
18、在語義分析將樣本映射到語義概念空間以發(fā)現樣本數據之間的潛在語義聯系。 (1)構造“特征-樣本”矩陣,“特征-樣本”矩陣中的每一列是對應于第i個樣本特征向量; (2)對該矩陣進行奇異值分解(SVD);(3)用最大的k個奇異值所對應的“特征-語義”矩陣Uk和“樣本-語義”矩陣Vk以及最大的k個奇異值重構“特征-樣本”矩陣。,下面兩式分別代表在語義空間特征與特征之間的距離和在語義空間樣本與樣本之間的距離,2.3-6 聚類分析聚類技術
19、將數據元組視為對象。它將對象劃分為聚類,使在一個聚類中的對象“類似”,但與其它聚類中的對象“不類似”。通常,類似性基于距離,用對象在空間中的“接近”程度定義。聚類的“質量”可以用“直徑”表示;而直徑是一個聚類中兩個任意對象的最大距離。質心距離是聚類質量的另一種度量,它定義為由聚類質心(表示“平均對象”,或聚類空間中的平均點)到每個聚類對象的平均距離。,2.3-6 聚類分析(續(xù)),k-means算法,k-medoids算法,三、數據挖
20、掘算法,數據挖掘算法按挖掘目的可分為:(1)概念描述(總結,對比等)(2)關聯規(guī)則分析(3)分類與預測 (信息自動分類,信息過濾,圖像識別等)(4)聚類分析(5)異常分析(入侵檢測,金融安全等)(6)趨勢、演化分析(回歸,序列模式挖掘),按訓練方式,機器學習可分為: (1)有監(jiān)督的學習;有訓練樣本,學習機通過學習獲得訓練樣本包含的知識,并用其作為判斷測試樣本的類別的依據。(2)無監(jiān)督的學習:無訓練樣本,僅根
21、據測試樣本的在特征空間分布情況判斷其類別。(3)半監(jiān)督的學習:有少量訓練樣本,學習機以從訓練樣本獲得的知識為基礎,結合測試樣本的分布情況逐步修正已有知識,并判斷測試樣本的類別。(4)強化學習:沒有訓練樣本,但有對學習機每一步是否更接近目標的獎懲措施。,有監(jiān)督的學習,半監(jiān)督的學習,無監(jiān)督的學習,3.1 關聯規(guī)則挖掘關聯規(guī)則挖掘發(fā)現大量數據中項集之間有趣的關聯或相關聯系。設I = { i1 , i2 ,..., im }是項的集合。設
22、任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得T ? I。設A是一個項集,事務T包含A當且僅當A ? T。關聯規(guī)則是形如A ? B的蘊涵式,其中A ? I,B ? I,并且A ? B = ?。規(guī)則A ? B在事務集D中成立,具有支持度s,其中s是D中事務包含A ? B的百分比。即,P(A ? B)。規(guī)則A ? B在事務集D中具有置信度c,如果D中包含A的事務同時也包含B的百分比是c。這是條件概率P(B|A)。即s
23、upport (A ? B ) = P(A ? B) confidence (A ? B ) = P(B|A),3.1 關聯規(guī)則挖掘(續(xù))Apriori性質:頻繁項集的所有非空子集都必須也是頻繁的。Apriori性質基于如下觀察:根據定義,如果項集I不滿足最小支持度閾值s,則I不是頻繁的,即P(I) < s。如果項A添加到I,則結果項集(即I ? A)不可能比I更頻繁出現。因此,I ? A也不是頻繁的,即P(I ? A)
24、< s。該性質表明如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。將Apriori性質應用于算法:下面算法的兩個主要步過程由連接和剪枝組成。,3.1 關聯規(guī)則挖掘(續(xù))連接步:為找Lk,通過Lk - 1與自己連接產生候選k-項集的集合。該候選項集的集合記作Ck。 Ck是Lk的超集。掃描數據庫,確定Ck中每個候選的計數,將令計數值不小于最小支持度計數的(頻繁的)所有候選加入Lk。剪枝步:但Ck可能很大,這樣所
25、涉及的計算量就很大。根據Apriori性質如果一個候選k-項集的(k-1)-子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。Apriori性質(逆反描述):任何非頻繁的(k-1)-項集都不是可能是頻繁k-項集的子集。,3.2 決策樹決策樹學習是歸納推理算法。它是一種逼近離散函數的方法,且對噪聲數據有很好的健壯性。在這種方法中學習到的知識被表示為決策樹,決策樹也能再被表示為多個if-then的規(guī)則,以提高可讀性。
26、基本決策樹算法就是一個貪心算法。它采用自上而下、分而制之的遞歸方式來構造一個決策樹通常,決策樹是一種自頂向下增長樹的貪婪算法,在每個結點選取能最好地分類樣例的屬性。繼續(xù)這個過程直到這棵樹能完美分類訓練樣例,或所有的屬性都使用過了?!靶畔⒃鲆妗?用于衡量屬性的價值。熵(entropy)是一種度量信息增益的指標,它描述了樣本的純度(purity)。下面是熵的定義:Entropy = -∑Pilog2Pi,3.2 決策樹(續(xù))注意點:
27、(1)避免過度擬合,應該適度剪枝;(2)連續(xù)值的離散化;(3)處理缺失值的方法:最常見值、按概率分配;(4)處理權重不同的屬性常用實現算法:CART、ID3、ASSISTANT、C4.5,3.3 人工神經網絡人工神經網絡(Artificial Neural Networks)提供了一種普遍而且實用的方法,來從樣例中學習值為實數、離散或向量的函數。反向傳播(Back Propagation)這樣的算法使用梯度下降來調節(jié)網絡參數以最
28、佳擬合由輸入/輸出對組成的訓練集合。BP網絡的學習方法和目標:對網絡的連接權值進行調整,使得對任一輸入都能得到所期望的輸出。,常用的非線性作用函數是Sigmoid函數,即f (x)=1/(1+ e-x)。在神經網絡模型中,大量神經元節(jié)點按一定體系結構連接成網狀。神經網絡一般都具有輸入層,隱層和輸出層。,每個神經元都是一個結構相似的獨立單元,它接受前一層傳來的數據,并將這些數據的加權和輸入非線性作用函數中,最后將非線性作用函數的輸出結果
29、傳遞給后一層。,誤差反向傳播的過程,3.3 人工神經網絡(續(xù))自適應共振理論模型(ART) ——聚類連續(xù)/離散Hopfield神經網絡——求近似最優(yōu)解,識別與分類雙向聯想記憶模型 (BAM) ——識別玻爾茲曼機(BM) ——求最優(yōu)解腦中盒模型(BSB) ——識別與分類自組織映射模型(SOM) ——識別與分類對向傳播網絡模型(CPN) ——識別與分類小腦模型(CMAC) ——快速識別,3.4 樸素貝葉斯(Naive Ba
30、yes)分類器樸素貝葉斯分類器是一種基于貝葉斯理論的分類器。它的特點是以概率形式表達所有形式的不確定,學習和推理都由概率規(guī)則實現,學習的結果可以解釋為對不同可能的信任程度。 P(H)是先驗概率,或H的先驗概率。P(H|X)是后驗概率,或條件X下,H的后驗概率。后驗概率P(H|X)比先驗概率P(H)基于更多的信息。P(H)是獨立于X的。假定數據樣本世界由水果組成,用它們的顏色和形狀描述。假定X表示紅色和圓的,H表示假定X是蘋果
31、,則P(H|X)反映當我們看到X是紅色并是圓的時,我們對X是蘋果的確信程度。,,,,,,樸素貝葉斯分類能夠奏效的前提是,P(X|H) 相對比較容易計算。假定X表示紅色和圓的,H表示假定X是蘋果;則P(X|H)表示已知蘋果,它既紅又圓的概率。,3.5 期望最大化(EM)期望最大化(EM)方法和樸素貝葉斯方法有著共同的理論基礎。期望最大化是一種基于循環(huán)過程的最大似然參數估計方法,用于解決帶缺失數據的參數估計問題。樣本數據分為標記樣本和未
32、標記樣本,按照統(tǒng)計的觀點,對于每一個樣本的產生,其背后都有一個模型,即樣本生成模型。樣本生成模型的參數先由標記樣本確定,再通過標記樣本和利用當前模型判斷標記的未標記樣本共同調整。,3.5 期望最大化(續(xù))如果參數適當,EM 算法能得到較好的分類結果,但計算速度相對較慢。其具體的步驟如下:一、初始參數估計,將未標記的樣本按樸素貝葉斯分類方法進行類標注。二、反復迭代E步驟和M步驟,直到收斂。三、E步驟:對于每個未標記的樣本,按下式計
33、算類標記的期望值。四、M步驟:利用E步驟計算出的期望值,按下式用已標記樣本和未標記樣本重新估計新的分類器參數。,,3.6 K-最近鄰分類K-近鄰(K-NN)分類是基于范例的分類方法,它的基本思想是:給定待分類樣本后,考慮在訓練樣本集中與該待分類樣本距離最近(最相似)的K 個樣本,根據這K 個樣本中大多數樣本所屬的類別判定待分類樣本的類別。它的特例是1- NN,即分類時選出待分類樣本的最近鄰,并以此最近鄰的類標記來判斷樣本的類
34、。K-NN算法的優(yōu)點在于它有較高的精確程度,研究表明,K-NN的分類效果要明顯好于樸素貝葉斯分類、決策樹分類。,3.6 K-最近鄰分類(續(xù))最近鄰分類的算法步驟如下:一、以向量空間模型的形式描述各訓練樣本。二、在全部訓練樣本集中選出與待分類樣本最相似的K個樣本。K值的確定目前沒有很好的方法,一般采用先定一個100左右的初始值,然后再調整。三、將待分類樣本標記為其K個鄰居中所屬最多的那個類別中。,3.7 遺傳算法遺傳算法易于并
35、行處理,其依據是自然界進化和適者生存的原則。遺傳學習開始如下:創(chuàng)建若干個由隨機產生的個體組成的初始群體。每個個體用一個二進位串表示。形成由當前群體中最適合的個體組成新的群體,以及這些規(guī)則的子女。個體的適合度用某一目標函數來評估。子女通過使用諸如交叉和變異等遺傳操作來創(chuàng)建。在交叉操作中,來自個體對的子串交換,形成新的個體對。在變異操作中,個體中隨機選擇的位被反轉。,3.7 遺傳算法(續(xù))Fitness:適應度評分函數,為給定假設賦予
36、一個評估得分。Fitness_threshold:指定終止判據的閾值。p:群體中包含的假設數量。r:每一步中通過交叉取代群體成員的比例。m:變異率。初始化群體:P?隨機產生的p個假設評估:對于P中的每一個h,計算Fitness(h)當[Fitness(h)]<Fitness_threshold,做:產生新的一代PS:,3.7 遺傳算法(續(xù))選擇:用概率方法選擇P的(1-r)p個成員加入PS。從P中選擇假設hi的概率P
37、(hi)通過下面公式計算:交叉:根據上面給出的P(hi),從P中按概率選擇r?p/2對假設。對于每一對假設應用交叉算子產生兩個后代。把所有的后代加入PS。變異:使用均勻的概率從PS中選擇m百分比的成員。對于選出的每個成員,在它的表示中隨機選擇一個位取反。更新:P?PS。評估:對于P中的每一個h計算Fitness(h)從P中返回適應度最高的假設。,3.8 聚類分析為達到全局最優(yōu),基于劃分的聚類會要求窮舉所有可能的劃分。聚類技術
38、將數據元組視為對象。它將對象劃分為群或聚類,使得在一個聚類中的對象“類似”,但與其它聚類中的對象“不類似”。絕大多數應用采用了以下兩個比較流行的基于劃分的方法,這些基于劃分的聚類方法對在中小規(guī)模的數據庫中發(fā)現球狀簇很適用。(1)k-means算法,在該算法中,每個簇用該簇中對象的平均值來表示。(2)k-medoids算法,在該算法中,每個簇用接近聚類中心的一個對象來表示。,3.8 聚類分析(續(xù))常用的相似程度度量 余弦夾角:
39、 Dice系數:Jaccard系數:,3.8 聚類分析(續(xù))基于層次的方法:層次的方法對給定數據集合進行層次的分解。根據層次的分解如何形成,層次的方法可以被分為凝聚或分裂方法。 (Chameleon ,CURE,BIRCH) 基于密度的方法:只要臨近區(qū)域的密度超過某個閾值,就繼續(xù)聚類。避免僅生成球狀聚類。(DBSCAN,OPTICS,DENCLUE)基于網格的方法:基于網格的方法把對象空間量化為
40、有限數目的單元,所有的聚類操作都在這個量化的空間上進行。這種方法的主要優(yōu)點是它的處理速度很快。(STING,CLIQUE,WaveCluster)基于模型的方法:為每個簇假設一個模型,發(fā)現數據對模型的最好匹配。(COBWEB,CLASSIT,AutoClass),3.9 隱馬爾可夫模型對于一個隨機事件,有一個觀察值序列:O1, ..., OT。該事件隱含著一個狀態(tài)序列:X1, ..., XT假設1:馬爾可夫性,P(Xi| Xi-1
41、…X1) = P(Xi| Xi-1)假設2:不動性,P(Xi+1| Xi) = P(Xj+1| Xj),對任意i,j成立假設3:輸出獨立性,P(O1,..., OT | X1,..., XT) = ΠP(Ot | Xt) 一個隱馬爾可夫模型是一個五元組:(ΩX, ΩO, A, B, π)其中:ΩX = {Q1,..., QN}:狀態(tài)的有限集合;ΩO = {V1,..., VM}:觀察值的有限集合;A = {aij},aij
42、= P(Xt+1 = Qj |Xt = Qi):轉移概率;B = {bik},bik = P(Ot = Vk | Xt = Qi):輸出概率;π = {πi},πi = P(X1 = Qi):初始狀態(tài)分布。,3.9 隱馬爾可夫模型(續(xù))令 λ = {A, B,π} 為給定HMM的參數,令 σ = O1,...,OT 為觀察值序列,隱馬爾可夫模型的三個基本問題: 評估問題:對于給定模型,求某個觀察值序列的概率P(σ|λ) 。向
43、前/向后算法:定義向前/向后變量。采用動態(tài)規(guī)劃算法,復雜度O(N2T)解碼問題:對于給定模型和觀察值序列,求可能性最大的狀態(tài)序列。Viterbi算法:采用動態(tài)規(guī)劃算法,復雜度O(N2T)學習問題:對于給定的一個觀察值序列,調整參數λ,使得觀察值出現的概率P(σ|λ)最大。向前EM算法的一個特例,帶隱變量的最大似然估計。Baum-Welch算法。,3.9 隱馬爾可夫模型(續(xù))向前/向后算法:定義向前/向后變量:初始化:遞歸:
44、終結:,,3.9 隱馬爾可夫模型(續(xù))Viterbi算法初始化:遞歸:終結:求S序列:,3.9 隱馬爾可夫模型(續(xù))Baum-Welch算法主要步驟:1. 初始模型(待訓練模型) l0,2. 基于l0 以及觀察值序列s,訓練新模型 l;3. 如果 log P(X|l) - log(P(X|l0) < Delta,說明訓練已經達到預期效果, 算法結束。4. 否則,令l0 = l
45、,繼續(xù)第2步工作,3.10 支持向量機支持向量機基本模型是針對線性可分情況下的最優(yōu)分界面提出的。在這一條件下,正類和反類訓練樣本可用超平面完全正確地分開。設線性可分樣本集合為( xi , yi ),i = 1,…, n;x∈Rd,y∈{+1,-1}是類別標記。支持向量機工作的機理可描述為:尋找一個超平面w·x + b = 0,該平面把兩類訓練樣本點完全正確地分開,即滿足 且
46、;同時滿足兩類訓練點到此超平面的最近距離之和,即“間隔” (Margin),達到最大。滿足上述條件的分界面就是最優(yōu)分界面,經過兩類樣本中距離最優(yōu)分類面最近的點,且平行于最優(yōu)分界面的超平面H1、H2(邊界超平面)上的訓練樣本稱為支持向量,即圖中帶圈的點。,,,3.10 支持向量機(續(xù))根據最近距離之和最大以及正確分離兩類樣本這兩個條件,可以構造約束極值問題:見(1)式。通過拉格朗日乘數法并引入拉格朗日乘數,該約束極值
47、問題就可以轉化成一個求解較為簡單的對偶問題,通過尋求該對偶問題的最優(yōu)解,就可以得到原問題的最優(yōu)解。構造分類器判決函數:見(2)式。(2)式中,sgn(.)是取符號函數,產生+1或-1兩種結果。當測試無標記的測試數據時,根據上式的計算結果就可判斷無標記測試數據屬于正類還是反類。,(1),(2),3.10 支持向量機(續(xù))由于噪聲或其他因素的影響,兩類數據可能有少數的融合或交叉。引入松弛變量x使得分類器在訓練后仍可以存在一些錯分樣本,不
48、但要使兩類樣本之間的間隔盡量大,同時還要使錯分的樣本的松弛變量之和盡可能的小,即,其中,x為松弛變量,滿足xi≥0;C為大于零的折衷因子,它調和了間隔距離和錯分樣本數之間的關系,C趨近于無窮大時即為線性可分的形式。為了提高支持向量機的推廣能力,C通常取為較大的數。,3.10 支持向量機(續(xù))解決線性不可分數據問題的方法是將低維空間的線性不可分數據映射到高維的線性可分空間中。支持向量機通過非線性映射f (x)把數據由低維空間向高維空間
49、映射,在高維空間為低維數據構造線性分離超平面。該分離超平面對應著原特征空間上的一個分割超曲面。在高維特征空間上所有涉及f (x)的計算及判決函數都以f (x)的內積形式出現,因而可以引入一個核函數進行整體處理從而避免了對f (x)的直接計算,使所有的計算仍在原空間進行。,3.10 支持向量機(續(xù))統(tǒng)計學習理論認為:學習機誤判未知數據類別的實際風險與學習機的訓練誤差并不完全一致,對于兩類分類問題,實際風險與學習機的訓練誤差
50、之間至少以1-h 的概率(0< h <1)滿足下式: 根據統(tǒng)計學習的理論,對于兩類分類的支持向量機,在線性可分的情況下,它的推廣誤差的上界(以1-d 的概率(0< d <1)保證)為:其中,m是連續(xù)分類正確的樣本數;g =1/ ||w||,是間隔距離的一半;R是一個特征空間球的半徑,它將全部樣本包含在其中。,,3.11 關系學習關系學習所涉及的問題比傳統(tǒng)機器學習中涉及到的問題高一個層次。該類問題的假
51、設空間龐大,結構復雜;需要加入領域知識反映問題的內在結構。關系學習中知識的表示:原子;析取、合取、蘊含、非;驗證、等價、涵蘊等。句子由上述元素組成。一階Horn子句:僅包含一個肯定文字的子句。有三種類型的Horn子句:單一原子(事實);一個蘊涵(規(guī)則);一個否定文字的集合(目標)。,3.11 關系學習(續(xù))歸納邏輯編程(Inductive Logic Programming, ILP)是處理關系學習領域問題的重要方法。它是歸納學
52、習和邏輯程序結合的產物。ILP用于一階邏輯的概念學習和邏輯程序的合成。ILP 系統(tǒng)處理分類任務時主要采用兩種方式:覆蓋方法和分治方法。子句空間由形如:H←L1,L2,…Lm 的一階子句構成。θ-包容關系:假設c和c’是兩個程序子句,子句c θ-包容子句c’,如果存在一個替換θ使得cθ?c’基于ILP的常用方法有:Progol、FOIL、TLIDE、ICL,四、模型上的模型,4.1 裝袋 / 提升給定s個樣本的集合S。裝袋(Ba
53、gging)過程如下。對于迭代t ( t = 1, 2,..., T ),訓練集St采用放回選樣,由原始樣本集S選取。由于使用放回選樣,S的某些樣本可能不在St中,而其它的可能出現多次。由每個訓練集St學習,得到一個分類法Ct。為對一個未知的樣本X分類,每個分類法Ct返回它的類預測,算作一票。裝袋的分類法C*統(tǒng)計得票,并將得票最高的類賦予X。通過取得票的平均值,裝袋也可以用于連續(xù)值的預測。,4.1 裝袋 / 提升(續(xù))提升(Bo
54、osting)過程如下:每個訓練樣本賦予一個權,并學習得到一系列分類法。對于迭代t ( t = 1, 2,..., T ),學習得到分類法Ct后,更新權,使得隨后的分類法Ct+1“更關注”Ct的分類錯誤。最終的提升分類法C*組合每個分類法的表決,這里每個分類法的表決是其準確率的函數。通過取得票的平均值,提升算法也可以擴充到連續(xù)值預測。,4.2 共同訓練(Co-Training)共同訓練算法用兩個不同的“視圖”(即特征集合)來描述
55、文本的特征?;舅悸罚好總€視圖對應一個學習機,而每個學習機都根據自身已學到的規(guī)律來標記“最有把握”的無標記樣本,然后將這個(或這幾個)新標記的樣本加入訓練樣本,并擴展后的訓練樣本提供給另一個學習機進行學習。如此反復,直到滿足一定的條件為止。該算法中所用到的兩個視圖需要滿足以下兩個條件:首先,每個特征集合對文本分類學習來說都是充分的;其次,在給定類別標記的條件下,兩個特征集合相互獨立。,4.3 主動學習 / 被動學習主動學習在學習過
56、程中可以根據學習進程,選擇最有利于分類器性能的樣本來進一步訓練分類器,它能有效地減少評價樣本的數量;被動學習只是隨機地選擇訓練樣本,被動地接受這些樣本的信息進行學習。主動學習是實現監(jiān)督學習過程的一個有效的方法。在主動學習過程中,分類器主動地選擇對其“最有幫助”的一組子樣本進行學習,而不是被動地接受訓練集。“最有幫助”的樣本指的是對當前分類器來說,歸屬最不確定的樣本。即當前分類器最難以區(qū)分的樣本。通常情況下,主動學習的計算復雜度比一
57、般的監(jiān)督學習過程要顯著得低。,4.3 主動學習 / 被動學習(續(xù))初始狀態(tài)下,候選樣本集中所有的樣本都未帶類別標注,根據先驗知識或者隨機地從候選樣本集中選擇少量樣本并標注它們的類別,構造初始訓練樣本集,確保初始訓練樣本集中至少包含有一個正例樣本和一個負例樣本。在上述初始訓練樣本集上訓練一個分類器,并采用某種針對該分類器采樣算法,從候選樣本集中選擇最有利于提高分類器性能的樣本,手工標注其類別并加入訓練樣本集,再重新訓練分類器。重復以
58、上過程,直到候選樣本集為空或達到某種要求。主動學習是一個循環(huán)反復的過程。,在主動學習的模型中,全部數據被分為兩部分,一部分是帶標簽的樣本集X,另一部分是無標簽的樣本集U。主動學習的模型還包括了一個在帶標簽的樣本集X上訓練的學習機L和一個決策模塊q。決策模塊q用來決定U中的哪一些樣本應該被選出標記標簽,并加入帶標簽的樣本集X。更新后的X將在下一個輪次被用于訓練學習機L。主動學習的框架模型如圖。,根據決策模塊q的不同工作機理,主動學習方法又
59、可以被分為兩大類:其一是不確定取樣方法;另一是委員會咨詢方法。,4.4 直推式學習直推式學習的思想來源于前面提到的機器學習的困境:一方面獲取已知標簽的樣本代價高昂;另一方面獲取無標簽的樣本要相對容易得多。直推式學習的學習過程恰恰可以將大量無標簽的測試集樣本所攜帶的分類信息,通過迭代逐步轉移到了最終的分類器中去。由于測試樣本易于獲得、數量較多,直推式學習機能夠更好地描述整體樣本空間上的數據分布特性,使測試樣本的分類結果更為準確。,4
60、.4 直推式學習(續(xù))在多數情況下,人們只對測試文本的分類結果感興趣,這時就沒有必要非得尋求具有良好泛化能力的規(guī)則,而只要求分類器能對這些特定的文本做出正確分類即可。它在目前已知標簽樣本十分緊缺,而未知標簽樣本易于獲得的條件下,有著非常重要的現實意義。,4.5 廣義EM算法EM算法可用于許多問題框架,其中需要估計一組描述基準概率分布的參數θ,只給定了由此分布產生的全部數據中能觀察到的一部分。一般地,令X=代表在同樣的實例中未觀察
61、到的數據,并令Y=X∪Z代表全體數據。注意到未觀察到的Z可被看作隨機變量,它的概率分布依賴于未知參數θ和已知數據X。類似地,Y是一隨機變量,因為它是由隨機變量Z來定義的。在EM算法的一般形式中,用h來代表參數θ的假設值,而h´代表在EM的每次迭代中修改的假設。,4.5 廣義EM算法(續(xù))EM算法通過搜尋使E[lnP(Y|h´)]最大的h´來尋找極大似然假設h´。此期望值是在Y所遵循的概率分布
62、上計算,此分布由未知參數θ確定。首先,P(Y|h´)是給定假設h´下全部數據Y的似然性。其合理性在于我們要尋找一個h´使該量的某函數值最大化。其次,使該量的對數lnP(Y|h´)最大化也使P(Y|h´)最大化。第三,引入期望值E[lnP(Y|h´)]是因為全部數據Y本身也是一隨機變量。已知全部數據Y是觀察到的X和未觀察到的Z的合并,我們必須在未觀察到的Z的可能值上取平均,
63、并以相應的概率為權值。,4.5 廣義EM算法(續(xù))在EM算法的一般形式里,重復以下兩個步驟直至收斂。步驟1:估計(E)步驟:使用當前假設h和觀察到的數據X來估計Y上的概率分布以計算Q(h´|h)。步驟2:最大化(M)步驟:將假設h替換為使Q函數最大化的假設h´:,,,4.6 強化學習強化學習的模型如圖所示通過Agent與環(huán)境的交互進行學習。 Agent與環(huán)境的交互接口包括行動(Action)、回報(Re
64、ward)和狀態(tài)(State)。交互過程可以表述為如下形式: 每一步,Agent根據策略選擇一個行動執(zhí)行,然后感知下一步狀態(tài)和即時回報,通過經驗再修改自己的策略。Agent的目標就是最大化長期回報。,4.6 強化學習(續(xù))馬爾可夫過程是四元組 M = 。其中S是狀態(tài)集。A是行動集, A(s) 表示狀態(tài)s下可執(zhí)行的行動。T = S×A×S? [0,1]是狀態(tài)轉換模型, T(s,a,s’)
65、表示狀態(tài)s下執(zhí)行行動a到達狀態(tài)s’ 的概率,且滿足∑s’ T(s,a,s’) = 1 。R = S×A×S? R是即時回報函數, R(s,a,s’)表示狀態(tài)s下執(zhí)行行動a到達狀態(tài)s’ 后可以得到的即時回報。,4.6 強化學習(續(xù))轉換模型和回報函數是環(huán)境的一部分,描述了環(huán)境模型,且只與當前狀態(tài)和行動有關,與以前的狀態(tài)和行動都沒有關系,體現了馬爾可夫特性。Agent為了完成任務,必須知道每個行動的長遠回報,而不僅
66、僅是即時回報。而長遠回報必須經過一定時間的延遲之后才可以獲得。 有終任務和持續(xù)任務可以統(tǒng)一起來,他們的長期回報是 或,,,4.6 強化學習(續(xù))Agent與環(huán)境交互的學習中選擇行動的方法稱為策略π:S×A? [0, 1],π(s, a)表示在狀態(tài)s下選擇行動a的概率。策略的一個退化形式為π:S?A,稱為確定性策略,表示在狀態(tài)s下行動a的執(zhí)行概率為1,其它行動均為0。Q學習
67、是最常用的強化學習技術。,,,值函數,Q函數,4.6 強化學習(續(xù))學習的目的是找到一個最優(yōu)策略。設有策略π和π’,若對所有狀態(tài)s∈S都有 Vπ(s) ≥ Vπ’(s) ,則稱策略π比策略π’好。這樣就總存在一個策略,它比其它所有策略都好,稱為最優(yōu)策略π*。若最優(yōu)策略對應的狀態(tài)評價函數記為V *,則對所有狀態(tài)s∈S,有V * (s) = max Vπ(s) 。對所有狀態(tài)s∈S,所有行動a∈A(s),有Q * (s)
68、= max Qπ(s)。,4.6 強化學習(續(xù))三種計算“值函數” Vπ(s)方法 :動態(tài)規(guī)劃法:已知環(huán)境模型T和R,每步進行迭代 。Monte Carlo法:沒有環(huán)境模型,根據經驗學習。只考慮有終任務,任務結束后對所有的回報進行平均。時序差分法:沒有環(huán)境模型,根據經驗學習。每步進行迭代,不需要等任務完成。,4.6 強化學習(續(xù))在多Agent系統(tǒng)中,環(huán)境在多個Agent的聯合動作下進行狀態(tài)的遷移。對于單個Agent來講,由于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論