隨機(jī)森林_第1頁(yè)
已閱讀1頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨機(jī)森林定義:隨機(jī)森林是一個(gè)分類器,它有一系列的單株樹(shù)決策器h(X,?k);k=1,......來(lái)組成其中?k是獨(dú)立同分布的隨機(jī)變量。再輸入X時(shí),每一棵樹(shù)只投一票給它認(rèn)為最合適的類。在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器,并且其輸出的類別是由個(gè)別樹(shù)輸出的類別的眾數(shù)而定構(gòu)成隨機(jī)森林的基礎(chǔ)分類器稱為決策樹(shù)。LeoBreiman和AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。這個(gè)術(shù)語(yǔ)是1995年由貝爾實(shí)驗(yàn)室的TinKamHo所

2、提出的隨機(jī)決策森林(romdecisionfests)而來(lái)的。這個(gè)方法則是結(jié)合Breimans的“Bootstrapaggregating“想法和Ho的“romsubspacemethod““以建造決策樹(shù)的集合。隨機(jī)森林是一個(gè)組合分類器,構(gòu)成隨機(jī)森林的基礎(chǔ)分類器是決策樹(shù)。決策樹(shù)算法決策樹(shù)可以視為一個(gè)樹(shù)狀預(yù)測(cè)模型,它是由結(jié)點(diǎn)和有向邊組成的層次結(jié)構(gòu)。樹(shù)中包含3個(gè)節(jié)點(diǎn):根節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn),終節(jié)點(diǎn)(葉子節(jié)點(diǎn))。決策樹(shù)只有一個(gè)根節(jié)點(diǎn),是全體訓(xùn)練集的

3、結(jié)合。樹(shù)中的每個(gè)內(nèi)部節(jié)點(diǎn)都是一個(gè)分裂問(wèn)題,它將到達(dá)該節(jié)點(diǎn)的樣本按某個(gè)特定的屬性進(jìn)行分割,可以將數(shù)據(jù)集合分割成2塊或若干塊。每個(gè)終結(jié)點(diǎn)(葉子節(jié)點(diǎn))是帶有分裂標(biāo)簽的數(shù)據(jù)集合,從決策樹(shù)的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每一條路徑都形成一個(gè)類;決策樹(shù)的算法很多,例如ID3算法,CART算法等。這些算法均采用自上而下的貪婪的算法,每個(gè)內(nèi)部節(jié)點(diǎn)選擇分類效果最好的屬性進(jìn)行分裂節(jié)點(diǎn),可以分為兩個(gè)或若干個(gè)子節(jié)點(diǎn),繼續(xù)此過(guò)程到這可決策樹(shù)能夠?qū)⑷坑?xùn)練數(shù)據(jù)準(zhǔn)確的分類,或所

4、有屬性都被用到為止。具體步驟如下:1)假設(shè)T為訓(xùn)練樣本集。2)選擇一個(gè)最能區(qū)分T中樣本的一個(gè)屬性。3)創(chuàng)建一個(gè)數(shù)的節(jié)點(diǎn),它的值是所選擇的屬性,創(chuàng)建此節(jié)點(diǎn)的子節(jié)點(diǎn),每個(gè)子鏈代表所選屬性的唯一值,適用子鏈的值進(jìn)一步將樣本細(xì)分為子類。對(duì)于3)創(chuàng)建的三個(gè)子類(1)如果子類的樣本滿足預(yù)定義的標(biāo)準(zhǔn),或者樹(shù)的這條路的剩余可選屬性集為空,為沿此路徑的新的樣本指定類別。(2)如果子類不滿足于定義的標(biāo)準(zhǔn),或者至少有一個(gè)屬性能細(xì)分樹(shù)的路徑,設(shè)T為當(dāng)前子類樣本

5、的集合,返回步驟2),以下簡(jiǎn)單的給出二分樹(shù)的結(jié)構(gòu)圖示:根節(jié)點(diǎn)中間節(jié)點(diǎn)葉節(jié)點(diǎn)規(guī)則1規(guī)則1規(guī)則2葉節(jié)點(diǎn)葉節(jié)點(diǎn)林的運(yùn)行速度非常的塊并且不會(huì)產(chǎn)生過(guò)度擬合,可以根據(jù)需要來(lái)生成任意多的樹(shù)?;陔S機(jī)樹(shù)上的諸多優(yōu)點(diǎn),隨機(jī)森林在當(dāng)前的機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)新的研究熱點(diǎn)。隨機(jī)森林的理論基礎(chǔ)隨機(jī)森林之所有那么多的優(yōu)點(diǎn),是因?yàn)橛袕?qiáng)大的數(shù)學(xué)知識(shí)做后盾。一個(gè)隨機(jī)森林是否能夠進(jìn)行正確的分類,分類的效果如何,以及如何評(píng)價(jià)隨機(jī)森林的分類效果都有數(shù)學(xué)知識(shí)的基礎(chǔ)。R.F不會(huì)過(guò)度

6、擬合的保證——大數(shù)定律隨機(jī)森林的一個(gè)與眾不同的特征就是它不會(huì)產(chǎn)生過(guò)度擬合。那么它為什么不會(huì)產(chǎn)生過(guò)度擬合呢?不會(huì)產(chǎn)生過(guò)度擬合的理論依據(jù)是什么呢?下面解釋這一個(gè)問(wèn)題。給定一系列分類器h(x,θ1),h(x,θ2),,,,,,h(x,θk)隨機(jī)取出服從隨機(jī)向量YX分布的訓(xùn)練集。定義邊際函數(shù)為:))((max))(()(jxIayxIaYXhvhvmkkyjkkg?????其中I(.)是示性函數(shù),(.)vka表示取平均。于是,邊際函數(shù)刻畫了在正

7、確分類Y下X的得票超過(guò)其他分類的最大平均得票數(shù)的程度。該值越大,表明分類器的置信度越高。泛化誤差由下式得出:)0)((???YXPmPEgYX其中,下標(biāo)XY表明了概率的定義空間。在隨機(jī)森林中,)(xhk=h(x,θk)。當(dāng)樹(shù)的數(shù)目很大時(shí),它會(huì)遵循大數(shù)定律,因此樹(shù)的結(jié)構(gòu)為:隨著分類樹(shù)數(shù)目的增加,由于所有的序列θi,?pE幾乎處處收斂到)0)((max))(((??????jxhyyXhpppYjYX????其中θ是對(duì)應(yīng)單棵樹(shù)決策樹(shù)的隨機(jī)變

8、量,h(x,θ)是基于x和θ的輸出。這以結(jié)果解釋了為什么隨機(jī)森林不會(huì)隨著分布樹(shù)的增加而產(chǎn)生過(guò)擬合,但是卻有一個(gè)有限的繁華誤差值。它的依據(jù)是大數(shù)定律。在有關(guān)隨機(jī)森林的實(shí)驗(yàn)中,裝袋方法和隨機(jī)特征選擇并行應(yīng)用。袋裝方法的每一個(gè)新的訓(xùn)練集都是在原始訓(xùn)練集中通過(guò)一種叫做步步為營(yíng)法隨機(jī)重復(fù)采樣得到的。應(yīng)用這種方法的訓(xùn)練集一般只能包含原訓(xùn)練集中大約百分之六十七的樣本,其余的樣本作為袋外數(shù)據(jù),基于新的訓(xùn)練集生成樹(shù)可以充分的成長(zhǎng),不進(jìn)行剪枝。應(yīng)用袋裝方法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論