版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、<p> 本科畢業(yè)設(shè)計(論文) </p><p> BP神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究</p><p> 學(xué) 院 計算機學(xué)院 </p><p> 專 業(yè) 軟件工程 </p><p> 年級班別
2、 2006級(4)班 </p><p> 學(xué) 號 </p><p> 學(xué)生姓名 </p><p> 指導(dǎo)教師 </p><p><b> 2010年 5 月</b></p><
3、p><b> 摘 要</b></p><p> 異常點數(shù)據(jù)是指數(shù)據(jù)集中與眾不同數(shù)據(jù)。這部分數(shù)據(jù)的量小,但是對于我們的日常生產(chǎn)生活的影響極大。因此,異常點檢測被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測,金融保險,天氣預(yù)報以及新藥研制等領(lǐng)域。相對于大量的正常數(shù)據(jù)挖掘而言,異常點檢測被稱作小模式數(shù)據(jù)挖掘。BP算法是一種常用的數(shù)據(jù)挖掘算法。但是BP算法進行實際數(shù)據(jù)的異常點數(shù)據(jù)挖掘過程中存在:實際數(shù)據(jù)的維數(shù)
4、較高,存在冗余特征的干擾,以及在高維特征下,數(shù)據(jù)量不充分的問題。因此,本文分析BP神經(jīng)網(wǎng)絡(luò)處理各種數(shù)據(jù)的情況,并得到以下結(jié)果。(1)BP神經(jīng)網(wǎng)絡(luò)能夠較好的分離特征單一的仿真數(shù)據(jù);但是(2)特征相似性較大的數(shù)據(jù)集,難以分離判斷;(3)正常數(shù)據(jù)不充分或者不具有代表性,因此正常數(shù)據(jù)類學(xué)習(xí)不充分,從而導(dǎo)致異常無法判斷。針對以上問題,本文提出了以下的改進措施:(1)BP算法前進行特征約簡(映射)從中選取有益于異常檢測的特征(2)多神經(jīng)網(wǎng)絡(luò)融合,不
5、同神經(jīng)網(wǎng)絡(luò)識別不同的特征,相互取長補短,融合后得到最終的結(jié)果。</p><p> 關(guān)鍵字:異常,BP,異常點檢測,神經(jīng)網(wǎng)絡(luò)</p><p> 注:本設(shè)計(論文)題目來源于教師的國家級(或部級、省級、廳級、市級、校級、企業(yè))科研項目,項目編號為: 。</p><p><b> Abstract</b></p>
6、<p> Outlier data is the data set different data. This part of the small amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in network intrusion detecti
7、on, finance, insurance, weather, and new drug development and other fields. Relative to the large number of normal data mining, the anomaly detection model is called data mining small. BP algorithm is a commonly used dat
8、a mining algorithm. But the BP algorithm to real data outliers exist in </p><p> Key Words:Outliers-Data,BP,Algorithms,Neural Networks</p><p><b> 目 錄</b></p><p><b
9、> 1引言1</b></p><p><b> 1.1背景1</b></p><p> 1.2傳統(tǒng)已有異常點算法介紹1</p><p> 1.2.1基于統(tǒng)計學(xué)的異常點檢測算法1</p><p> 1.2.2基于距離的異常點檢測算法2</p><p> 1.
10、2.3基于密度的算法3</p><p> 1.2.4基于偏差的異常點檢測5</p><p> 1.2.5基于聚類的異常點檢測算法6</p><p> 2基于屬性特征在異常點檢測中的研究7</p><p> 3 BP神經(jīng)網(wǎng)絡(luò)介紹9</p><p><b> 3.1模型簡介9</b&g
11、t;</p><p> 3.2計算各層節(jié)點輸出9</p><p> 3.3 修正權(quán)值10</p><p> 4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計13</p><p> 4.1可微閾值單元13</p><p> 4.2單個BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計13</p><p> 4.3BP神經(jīng)網(wǎng)絡(luò)
12、學(xué)習(xí)過程的基本步驟14</p><p><b> 5實驗研究17</b></p><p> 5.1研究使用的數(shù)據(jù)庫介紹17</p><p> 5.2訓(xùn)練方案一實驗:把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量17</p><p> 5.3訓(xùn)練方案二實驗:用單個神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進行學(xué)習(xí)18<
13、/p><p> 5.4訓(xùn)練方案三實驗:多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策19</p><p> 5.4.1實驗設(shè)計思路19</p><p> 5.4.2實驗方案及步驟20</p><p> 5.4.3實驗分析22</p><p> 5.4.4實驗失敗原因分析23</p><p>
14、5.5BP調(diào)參實驗25</p><p> 5.5.1對實驗一調(diào)整隱層實驗25</p><p> 5.5.2對實驗二調(diào)整隱層實驗26</p><p> 5.5.3對實驗三調(diào)整隱層實驗29</p><p> 5.6數(shù)據(jù)仿真實驗31</p><p> 5.6.1實驗思路31</p><
15、;p> 5.6.2實驗步驟31</p><p> 5.6.3實驗結(jié)果32</p><p> 5.6.4結(jié)果分析33</p><p> 5.7實驗整體分析33</p><p><b> 總結(jié)與展望35</b></p><p><b> 致謝39</b&g
16、t;</p><p><b> 1引言</b></p><p><b> 1.1背景</b></p><p> 異常點(離群點或者孤立點)檢測是數(shù)據(jù)挖掘中一個重要方面,Hawkins[1]最早給出了異常點的本質(zhì)定義:異常點是數(shù)據(jù)集中與眾不同地數(shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生與完全不同的機制。異常點可
17、能由于度量或執(zhí)行錯誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。例如,一個公司首席執(zhí)行官的工資自然遠遠高于公司其他雇員的工資,成為一個異常點。許多數(shù)據(jù)挖掘算法試圖減少異常點的對挖掘結(jié)果的影響,或者在挖掘過程中排除異常點。然而異常點可能隱藏著重要的信息,也許比一般的數(shù)據(jù)更有價值。因此人們開始逐漸研究異常點挖掘算法。目前異常點檢測已經(jīng)開始用于信用卡欺詐、網(wǎng)絡(luò)入侵檢測以及金融申請和交易欺詐等領(lǐng)域[2],近年來異常點檢測已成為數(shù)據(jù)挖掘研究中的一個熱
18、點問題。</p><p> 傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。本文從特征與異常檢測的關(guān)系出發(fā)進行研究。BP神經(jīng)網(wǎng)絡(luò)適用于儲存和描述這種復(fù)雜的關(guān)系。但是異常檢測過程,通常數(shù)據(jù)的位數(shù)較高,在高維特征存在冗余特征干擾,以及高維特征下數(shù)據(jù)不充分的問題,因此,本文研究了BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于不同情況。</p><p> 1.2傳統(tǒng)
19、已有異常點算法介紹</p><p> 1.2.1基于統(tǒng)計學(xué)的異常點檢測算法</p><p> 早期的異常點檢測算法大多數(shù)是基于統(tǒng)計學(xué)實現(xiàn)的,通??梢苑譃榛诜植嫉臋z測算法和基于深度的檢測算法兩類。前者一般通過先構(gòu)造一個標(biāo)準(zhǔn)概率分布來擬合數(shù)據(jù)集,然后根據(jù)概率分布來確定異常點,例如Rosner提出的單樣本多個異常檢測算法ESD算法,和Yamnishi等使用混合高斯模型的異常點檢測算法。此類
20、算法估計多維分布的概率模型的難度較大,且準(zhǔn)確性低?;谏疃确椒ㄖ饕杂嬎銕缀螢榛A(chǔ),通過計算不同層的K-D凸包將外層的對象判定為異常點。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。</p><p> 基于統(tǒng)計的異常點檢測方法易于理解,實現(xiàn)方便,但此方法檢測出來的異常點很可能被不同的分布模型檢測出來,解釋異常點意義時經(jīng)常發(fā)生多義性。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)
21、、異常點的數(shù)目等對基于統(tǒng)計的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多數(shù)據(jù)挖掘問題要求在多維空間中發(fā)現(xiàn)異常點,目前幾乎沒有多元的不一致檢驗,當(dāng)沒有特定的檢驗時,或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時,此類方法不能確保所有的異常點被發(fā)現(xiàn)。</p><p> 1.2.2基于距離的異常點檢測算法</p><p> 基于距
22、離的異常點檢測算法的基本思想是把數(shù)據(jù)點看作空間中的點,異常點被定義為與大多數(shù)數(shù)據(jù)距離較遠的點。通常這類異常被描述為。當(dāng)且僅當(dāng)數(shù)據(jù)集中至少有個數(shù)據(jù)點與點的距離大于時,數(shù)據(jù)對象點稱為異常點。這類方法與基于密度的檢測算法有很大的相似之處,不需要事先知道數(shù)據(jù)集的分布模型,對于任意分布模型均有效。</p><p> 基于距離方法最早是由Knorr和Ng在1998年提出的。他們用DB(p,d)來表示數(shù)據(jù)集中的異常點,采用不
23、同的參數(shù)與,可以表示所有的異常點。與此 定 義 相應(yīng)的算法有三種,它們是基于索引(Index-based)的算法,嵌套循環(huán)(Nest-Loop,NL)算法,基于單元或劃分(cell-based)的算法等。基于索引的方法依賴多維索引結(jié)構(gòu)(R-trees,X -trees,KD -tress等)的性能。隨著維數(shù)的增加,所有的索引結(jié)構(gòu)的性能迅速下降,使得算法性能不佳。NL算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的次數(shù)。以上兩方法的算法時間復(fù)雜度為
24、,當(dāng)遇到大量數(shù)據(jù)集時它們還有待改進?;趩卧姆椒ㄊ前褦?shù)據(jù)集劃分為單元,逐個單元的檢測,而非逐個對象的檢測。它的時間復(fù)雜度為,其中取決于單元的個數(shù)和維數(shù)。 Knorr和Ng通過試驗證明,當(dāng)時此算法優(yōu)于NL算法。</p><p> 相對前兩者,基于單元的算法無論是在數(shù)據(jù)量還是在維數(shù)增加時,性能都是最好的。此算法需要將數(shù)據(jù)空間分隔成彼此獨立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。對于參數(shù)的每個變化都需要調(diào)整單元結(jié)構(gòu)
25、,因此會影響了算法的結(jié)果。后來,Rastogi和Ramaswamy提出了一個新的基于距離的異常點定義,即基于距離的第最近鄰(k-th Nearest Neighbor)異常點挖掘方法。給定維空間中包含個點的數(shù)據(jù)集、參數(shù)和 (自然數(shù)),表示點和它的第最近鄰的距離。如果滿足的點q不超過n-1個,即,那么稱為異常點。如果對數(shù)據(jù)對象根據(jù)它們的距離進行排序,那么前n個點就被看作異常點。他們用聚類算法首先對數(shù)據(jù)集進行聚類,然后在類中發(fā)現(xiàn)異常點。相對
26、于異常點挖掘,異常點挖掘方法人為干預(yù)的因素要小一些。但它也有自身缺陷,就是要計算數(shù)據(jù)集中所有點的,這顯然影響到算法的效率。對低維空間的數(shù)據(jù)此方法優(yōu)于索引算法和NL算法,但對于高維數(shù)據(jù)此算法性能不高。</p><p> Bay和Sc hwabacher在沿用Rastogi和Ramaswamy對于異常定義的基礎(chǔ)上,提出了一種基于隨機抽樣的檢測方法,它通過隨機抽樣的方法,減少了尋找k近鄰的范圍,在試驗數(shù)據(jù)上獲得了幾乎
27、線性的計算復(fù)雜度。</p><p> 隨著人們對基于距離的方法的不斷研究,一些新的、較好的算法也不斷的涌現(xiàn)。代表性的算法有: 陸聲鏈等提出一個判斷異常點的新定義,并設(shè)計基于抽樣近似檢測算法。使得算法性能有所提高;另外,徐雪松等利用聚類算法與第k個最近鄰的原理提出了基于距離的再聚類的異常點算法,它克服一些基于距離算法的缺點,并取得較好的試驗結(jié)果。</p><p> 與基于統(tǒng)計的方法相比,
28、它有以下幾個優(yōu)點: 則可找出數(shù)據(jù)集中的異常點。</p><p> (1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計方法僅能檢測單個屬性的缺點。</p><p> (2) 不必對數(shù)據(jù)集的相關(guān)信息(數(shù)據(jù)服從哪種統(tǒng)計分布模型,數(shù)據(jù)類型特點等)足夠了解。實際上在給出了距離的度量,并對數(shù)據(jù)進行預(yù)處理后。</p><p> 1.2.3基于密度的算法<
29、/p><p> 基于密度方法是在基于距離的方法上改進而來。基于密度的異常觀點比基于距離的異常觀點更貼近Hawkins的異常定義,因此能夠檢測出基于距離異常算法所不能識別的局部異常。局部異常觀點摒棄了以前所有的異常定義中非此即彼的絕對異常觀念,更加符合現(xiàn)實生活的中的應(yīng)用。</p><p> 所謂密度是基于任意一點和P點距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點的個數(shù)計算得到的。一般的對密度的定義
30、是點到其量近鄰的平均距離,平均距離小則密度小。基于密度的異常點檢測,就是探測局部密度,通過不同的密度估計策略來檢測異常點。代表性算法主要有以下幾種。</p><p> Brito等提出相互k近鄰圖(Mutual k—Nearest Neighbor,簡稱MkNN)算法,其主要思想是對每個連通子圖進行檢測,如果包含多個結(jié)點就組成一個簇,如果僅有一個結(jié)點,那么該結(jié)點就是異常點。該算法針對數(shù)據(jù)點的分布對各種特殊形狀都
31、有效,但算法執(zhí)行效率不高。</p><p> (2)Ville Hautamaki等提出兩種基于密度的異常點檢測算法,第一種算法思路為在kNN圖中,若頂點u成為其它點的k近鄰的次數(shù)少于給定閾值T時就被認為是異常點,另一種算法則是先對所有頂點的平均k近鄰距離進行排序,然后將平均k近鄰距離大于T點頂點視為異常點。</p><p> (3)Papadimitriou定義了多粒度偏離系數(shù)(Mu
32、lti—Granularity Deviation Factor,簡稱MDEF),該算法將多粒度偏離系數(shù)是所在鄰域的標(biāo)準(zhǔn)多粒度偏離系數(shù)的3倍的點判定為異常點,然而標(biāo)準(zhǔn)多粒度偏離系數(shù)的計算量大,對算法的可行性有一定的限制。</p><p> (4)Dongmei Ren等采用相對密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點的密度相對該點的鄰域密度的比值作為孤立程度的度量方法,其
33、基本思路是首先基于RDF對位于簇中心的數(shù)據(jù)點進行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進行異常點檢測。該方法降低了數(shù)據(jù)集的大小,提高了算法效率,但是在剪枝過程中對于特殊分布的數(shù)據(jù)集就有可能將異常點剪掉,算法的準(zhǔn)確性受到限制。</p><p> (5)Breuning 提出了局部異常的概念及相應(yīng)異常檢測方法(DBOM算法),即數(shù)據(jù)集中的每個對象的異常程度用局部異常因子LOF來衡量。也就是說是否是異常點不僅僅取決于它
34、與周圍數(shù)據(jù)的距離大小,而且與鄰域內(nèi)的密度情況有關(guān)。一個對象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點個數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點數(shù)來描述。這樣就不會像DB(p,d)異常點那樣遺漏一部分異常點。LOF算法充分體現(xiàn)了“局部”的概念,每個點都給出了一個離群程度,離群程度最強的那個幾個點被標(biāo)記為異常點。文獻有關(guān)發(fā)面對LOF進行推廣:一是由原來的一個鄰域的變化為兩個(計算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對象來減小計算代價;因此,使用算法比傳統(tǒng)
35、的LOF算法有所提高。</p><p> 在現(xiàn)有的計算局部異常因子(LOF)算法中,把具有很高LOF值的對象作為異常點。計算LOF要耗費很大的計算量,針對此問題malik Agyemang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。這種方法主要是引入局部稀疏系數(shù)(LSC)這一概念,根據(jù)每個對象的LSC值按從大到小的順序排列整個數(shù)據(jù)集并把前n個對象作為異常點。</p><p> 但是,
36、此方法在實際應(yīng)用中計算量亦是不小,效率有待提高。</p><p> 另外,岳峰等利用反向K近鄰(RKNN)這個概念提出了一個異常點檢測算法(ODRKNN),在綜合數(shù)據(jù)集和正式數(shù)據(jù)集上的實驗結(jié)構(gòu)表明,該算法能有效地檢測出異常點,且算法效率高于典型的基于密度的異常點檢測算法LOF和LSC的效率。</p><p> 1.2.4基于偏差的異常點檢測</p><p>
37、基于偏差的異常點檢測不使用統(tǒng)計檢驗或者基于距離的度量來識別異常對象。相反,它通過檢查一組對象的主要特征來識別異常點。背離這種描述的對象認為是異常點。因此,在該方法中,屬于偏差通常用于指異常點。主要有兩種技術(shù):第一種順序地比較集合中的對象,叫順序異常技術(shù)(sequential exception technique);第二種采用OLAP數(shù)據(jù)立方體方法識別大型多維數(shù)據(jù)中的異常區(qū)域。</p><p> (1) 序列異
38、常技術(shù):Aming和Argrawal 提出一種序列異常(sequential exception)的概念。這個算法復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系,有優(yōu)異的計算性能。但是并沒有得到普遍的認同,這是因為序列異常在概念上有一定的缺陷,它對異常點存在的假設(shè)太過理想化,對現(xiàn)實復(fù)雜數(shù)據(jù)效果不太好。</p><p> (2) OLAP數(shù)據(jù)立方體技術(shù):在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體來確定反常區(qū)域.如果一個立方體的單元值顯著地
39、不同于根據(jù)統(tǒng)計模型得到的值,該單元被認為是一個異常。此方法是發(fā)現(xiàn)驅(qū)動探索的一種形式。此方法由于搜索空間很大,人工探測非常困難。</p><p> 第一種概念有缺陷,遺漏了不少異常點,時間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。第二種搜索空間大,人工探測困難,效率不高,只適用多維數(shù)據(jù)。</p><p> 1.2.5基于聚類的異常點檢測算法</p><p> 在
40、聚類算法中,異常點檢測僅僅是聚類的副產(chǎn)品。聚類算法發(fā)展方向是優(yōu)化聚類過程,而不是提高對異常點檢測的能力,異常點檢測和聚類是兩個相對立的過程,聚類是把屬于統(tǒng)一類的數(shù)據(jù)點聚集在一起,歸為一類,而異常點檢測是把和大多數(shù)數(shù)據(jù)點相異的點挖掘出來。</p><p> Su等人首先提出基于聚類的異常點檢測算法,聚集的較小簇被認為是異常點,但這中方法忽略了小聚集簇和大聚集簇之間的距離,當(dāng)一個小聚集簇和一個大聚集簇非常接近的時候
41、,小聚集簇中的這些點更可能是大聚集簇的邊界點而不是異常點。</p><p> 模糊k均值聚類算法(FCM)常用于異常點檢測,該算法動態(tài)地分配權(quán)重給每一個數(shù)據(jù)點,權(quán)重表示該數(shù)據(jù)點和數(shù)據(jù)集中心之間的距離,通過各點的權(quán)重來判斷異常點。此類算法沒有先驗知識指導(dǎo)如何確定聚類中心,只能是隨機選取,優(yōu)化搜索空間較大,算法的復(fù)雜度較大。</p><p> Hongyi Zhang等引為了提高模糊核聚類
42、算法的運行效率,提出了新的模糊核聚類算法,該算法用先驗知識對參數(shù)初始化。取代了用聚類中心初始化,改進了聚類的目標(biāo)函數(shù),降低了算法的時間復(fù)雜度,但該算法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。</p><p> 2基于屬性特征在異常點檢測中的研究</p><p> 傳統(tǒng)算法大都是通過數(shù)據(jù)在空間地特性來判斷檢測異常點。本文的方向是從特征出發(fā)研究。傳統(tǒng)算法從整個數(shù)據(jù)集合在空間中
43、分布地特性出發(fā)研究,比如距離的從整個數(shù)據(jù)集空間距離進行研究,同樣密度的按數(shù)據(jù)集空間密度研究,聚類也是按數(shù)據(jù)集空間特性。而本文直接從已知部分數(shù)據(jù)維度的特征著手,即是直接從每一組數(shù)據(jù)的特征來研究。</p><p> 對于單屬性特征的情況,根據(jù)數(shù)據(jù)重要性調(diào)整特征(即維度)權(quán)值,并根據(jù)數(shù)據(jù)重要性調(diào)整。假設(shè)數(shù)據(jù)特征表示在每個屬性上面,獨立沒有組合屬性表現(xiàn)特征地情況下,每一組數(shù)據(jù)屬性對應(yīng)權(quán)值數(shù)據(jù)乘積和,表示這個數(shù)據(jù)在這組數(shù)
44、據(jù)中全局中所占的重要性。例如檢測是否是糖尿病人的數(shù)據(jù)庫,三十歲以下這個年齡維度上病人較少,然而五十歲后這個維度病人比例就多了。映射到維度為三十歲以下這個維度地病人比較少,映射到維度為十歲以上較多。這樣我們可以添加一個權(quán)值與年齡這一項數(shù)據(jù)乘積,這個乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來的數(shù)據(jù)成正比,表示年齡增長能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。以便全局統(tǒng)籌決策較容易。設(shè)X為一組數(shù)據(jù)集合,可使趨向某個數(shù)值,表示這組數(shù)據(jù)某個總體特征。異?;蛘叻钱惓?,可
45、以通過趨向某個數(shù)值表示特征異常,另一個方向數(shù)值表示非異常。</p><p> 有時候數(shù)據(jù)組合的重要性是體現(xiàn)在幾個數(shù)據(jù)地組合里面,既可能體現(xiàn)在幾個屬性上面,比如說一組數(shù)組(A,B,C),可能AB組合特征不顯示異常,然而ABC組合就顯示異常,這些組合是不定地。所有在屬性權(quán)值之上需要一組對屬性不同組合特征的權(quán)值調(diào)整。</p><p><b> 圖2.1 樣例圖示</b>
46、</p><p> 如圖2.1,某個異常點可能異常特征是屬性1,可能是屬性1、屬性2地組合,對于同個數(shù)據(jù)庫不同點具有組合不確定性。</p><p> 由于特征地不可確定性,數(shù)值不確定,組合不確定。我們可以采用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)調(diào)整權(quán)值。同時根據(jù)已知數(shù)據(jù)訓(xùn)練修改這些權(quán)值,使其具有識別某種組合特征的能力。使其自學(xué)習(xí)特征,自動控制調(diào)整權(quán)值及權(quán)值組合。</p><p>
47、人工神經(jīng)網(wǎng)絡(luò)作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點:</p><p> ?。ǎ保┹斎?輸出映射能力。人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力,通過學(xué)習(xí),能夠根據(jù)網(wǎng)絡(luò)期望輸出和網(wǎng)絡(luò)實際輸出之差來調(diào)整神經(jīng)元間連接權(quán)值和閾值,直至使實際輸出與期望輸出之間的誤差減小到滿意的程度,這樣就實現(xiàn)了輸入到輸出的映射。人工神經(jīng)網(wǎng)絡(luò)的輸入-輸出映射能力對于預(yù)測有特別重要的意義。</p><p> ?。?/p>
48、2)非線性特性。人工神經(jīng)網(wǎng)絡(luò)具有很強的非線性,這種非線性分散在每個神經(jīng)元,通過傳遞函數(shù)實現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實驗數(shù)據(jù)處理過程中大量的非線性問題。</p><p> ?。?)高度并行性。人工神經(jīng)網(wǎng)絡(luò)是由許多相同的簡單處理單元并聯(lián)組合而成,具有高度并行性特性,使其對特定任務(wù)的計算變得很快,對信息的處理能力與效果驚人,因此提供了一種解決高層復(fù)雜問題的能力和方法。</p><
49、p> (4)良好的容錯性與聯(lián)想記憶功能。人工神經(jīng)網(wǎng)絡(luò)通過自身的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)對信息的記憶,而所記憶的信息是存儲在神經(jīng)元之間的權(quán)值中。從單個權(quán)值中看不出所存儲的信息內(nèi)容,因而是分布式的存儲方式,這使得網(wǎng)絡(luò)具有良好的容錯性,既能進行模式信息處理工作,又能進行模式識別工作。</p><p> 因為這些特點,神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在聚類分析、模式識別、信號處理、系統(tǒng)辨識、優(yōu)化計算、預(yù)測控制等領(lǐng)域。</p>
50、;<p> 根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點非異常點數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。</p><p> 3 BP神經(jīng)網(wǎng)絡(luò)介紹</p><p><b> 3.1模型簡介</b></p><p> 人工神經(jīng)網(wǎng)絡(luò)理論是80年代中后期迅速發(fā)展起來的一項前沿研究領(lǐng)域,其應(yīng)用已滲透到各個領(lǐng)域。B
51、P神經(jīng)網(wǎng)絡(luò)模型是人工神經(jīng)網(wǎng)絡(luò)的重要模型之一,應(yīng)用尤為廣泛。</p><p> BP算法主要包括兩個過程,一是由學(xué)習(xí)樣本、網(wǎng)絡(luò)權(quán)值從輸入層→隱含層→輸出層逐次算出各層節(jié)點的輸出;二是反過來由計算輸出與實際輸出偏差構(gòu)出的誤差函數(shù)E(),用梯度下降法調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,即</p><p><b> (3.1)</b></p><p><b>
52、 使誤差減小。</b></p><p> 設(shè)輸入層節(jié)點數(shù)為n,隱含層節(jié)點數(shù)為r,輸出層節(jié)點數(shù)為m,隱含層與輸入層之間的權(quán)值矩陣為,隱含層節(jié)點閥值為,輸出層與隱含層之間權(quán)值矩陣為,輸出層節(jié)點閥值為,并設(shè)有N個學(xué)習(xí)樣本其中為第P個學(xué)習(xí)樣本的輸入向量,為其實際輸出向量。其中,下文中如不指明則相同。</p><p> 3.2計算各層節(jié)點輸出</p><p>
53、; 輸入層節(jié)點,取其輸出與輸入相同,即</p><p> 隱含層節(jié)點輸入,輸出分別為:</p><p><b> (3.2)</b></p><p><b> 若令則有:</b></p><p><b> ,</b></p><p><b
54、> 。</b></p><p> 輸出層節(jié)點輸入,輸出分別為:</p><p><b> (3.3)</b></p><p><b> 若令,則有:</b></p><p><b> (3.4)</b></p><p>&l
55、t;b> 3.3 修正權(quán)值</b></p><p> 設(shè) </p><p> 其中為第p個學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。</p><p> 由誤差函數(shù)調(diào)整權(quán)值有:</p><p> 其中 </p><p> 其中
56、 </p><p><b> (3.5)</b></p><p> 其中為學(xué)習(xí)速率,一般在[0,1]內(nèi)取值。</p><p><b> 權(quán)值修正為:</b></p><p><b> (3.6)</b></p><p><b>
57、; (3.7)</b></p><p> 4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計</p><p><b> 4.1可微閾值單元</b></p><p> 圖 4.1可微閾值單元</p><p> 如圖 4.1 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計算它的線性組合,然后
58、應(yīng)用一個閾值到此結(jié)果。然而,對sigmoid單元,閾值輸出是輸入的連續(xù)函數(shù)。更精確地講,sigmoid單元這樣計算輸出。</p><p><b> ?。?.1)</b></p><p><b> 其中:</b></p><p><b> (4.2)</b></p><p>
59、 經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)。注意它的輸出范圍為0到1,隨輸入單調(diào)遞增。因為這個函數(shù)把非常大的書值域映射到一個小范圍的輸出。也叫擠壓函數(shù)。</p><p> 本算法就是想把所有整數(shù)據(jù)特征映射到一個小范圍來處理判斷。</p><p> 4.2單個BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計</p><p> 采用4.1為神經(jīng)感知器,隱層感知器根據(jù)實際數(shù)
60、據(jù)庫的屬性確定,一般少于等于屬性個數(shù),輸出層一個輸出感知器。</p><p> 圖 4.2 BP結(jié)構(gòu)</p><p> 輸入層為一組數(shù)據(jù),全連接到隱層,隱層計算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。最后輸出0到1的數(shù)值。</p><p> 隱層輸出層的神經(jīng)元,每個的都初始化為-0.05,其他權(quán)值都初始化:(double) ((rand()/327
61、67.0)*2-1);隨機數(shù)種子為系統(tǒng)時間。</p><p> 訓(xùn)練教師信號,按具體方案處理設(shè)定。</p><p> 4.3BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的基本步驟</p><p> (1)定義誤差函數(shù)為期望輸出與實際輸出之差的平方和:</p><p><b> ?。?.3)</b></p><p>
62、 其中yj是輸出單元的期望輸出,是實際的輸出。</p><p> ?。?)調(diào)節(jié)權(quán)值的公式為:</p><p><b> ?。?.4) </b></p><p> 其中為學(xué)習(xí)步長,取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:</p><p> 1) 如果j是輸出層(第m層)的神經(jīng)元,則</p>&l
63、t;p><b> ?。?.5) </b></p><p> 2) 如果j不在輸出層,而是隱含層的神經(jīng)元,則</p><p><b> ?。?.6) </b></p><p> 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見誤差函數(shù)的求取是一個始于輸出層的反向傳播的遞歸過程。</p><p&
64、gt; ?。?)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達到一定的值。</p><p> 反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時計算量很大,收斂較慢,而且存在局部最小的問題,根據(jù)這一問題,在具體操作時采用了加入動量項的方法:</p><p><b> ?。?.7) </b></p>&
65、lt;p> 稱為動量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。</p><p><b> 5實驗研究</b></p><p> 5.1研究使用的數(shù)據(jù)庫介紹</p><p> 在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫名稱:The Insurance Company Benchmark (COIL 2000
66、).關(guān)于保險的數(shù)據(jù),其中包括:TICDATA2000.txt,訓(xùn)練數(shù)據(jù),5822組數(shù)據(jù),每組86個屬性,第86個為是否異常的標(biāo)志變量,總地為兩類數(shù)據(jù);TICEVAL2000,測試數(shù)據(jù),4000組,每組為85個特征屬性;TICTGTS2000.txt,與ticeval2000對應(yīng)組地結(jié)果。</p><p> 5.2訓(xùn)練方案一實驗:把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量</p><p>
67、 起初思路是采用兩兩相似性地訓(xùn)練,然后得出一個整體數(shù)據(jù)庫屬性特征的神經(jīng)網(wǎng)絡(luò)。采用表示X與Y兩者相似性差異。在神經(jīng)網(wǎng)絡(luò)則表示為兩者整體特征差異大小。假設(shè)這樣能夠成功,則以后只要判斷測試數(shù)據(jù)與整體已知數(shù)據(jù)庫地整體差異大小,就可以判斷異常與否。</p><p> 神網(wǎng)絡(luò)結(jié)構(gòu)大概如下:</p><p> 注:每個方向箭頭抽象全連接</p><p> 圖 5.1 方案一
68、圖</p><p> 隱層采用85個可微閾值單元,輸出采用一個,網(wǎng)絡(luò)全連接。每個單元為86個權(quán)重,初始化權(quán)值按4.2給出的方法。</p><p> 具體方式,對已知數(shù)據(jù)集做兩兩訓(xùn)練,比如數(shù)據(jù)X和Y,做差fabsf(Xi - Yi),然后輸入一個BP神經(jīng)網(wǎng)絡(luò),已知數(shù)據(jù)庫中第86個屬性,(X 86,Y86)對應(yīng)為(0,0)則教師信號為1,(1,1)則教師信號為1,(0,1)則為0,部分順序
69、。</p><p> 實驗訓(xùn)練數(shù)據(jù)庫100與4000組數(shù)據(jù)做兩兩訓(xùn)練還有4000組與4000組數(shù)據(jù)訓(xùn)練。</p><p> 經(jīng)觀察驗證,測試數(shù)據(jù)與已知數(shù)據(jù)地相似性與否沒法與測試計算結(jié)果數(shù)據(jù)存在必然地比例關(guān)系。輸出結(jié)果的所有數(shù)據(jù),在0到1區(qū)間之間,不管相似不相似都集中分布在靠近0,沒有區(qū)分度,不能明顯表示相似與否地概念。然后又對測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)庫,進行相似性求和,對比測試數(shù)據(jù)中異常點與
70、非異常點與訓(xùn)練數(shù)據(jù)庫地相似性和,依然沒有區(qū)分度。</p><p> 經(jīng)多次嘗試,降低訓(xùn)練次數(shù)精度,本實驗方案依然失敗。</p><p> 經(jīng)過大量實驗,失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。第二,訓(xùn)練方案地問題,數(shù)據(jù)集合里面,缺乏異常點地訓(xùn)練,bp權(quán)值能增長方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地數(shù)據(jù)來區(qū)分。第三,數(shù)據(jù)特征不顯著。第四,訓(xùn)練順序?qū)е隆?lt;
71、/p><p> 解決方法:第一種改變訓(xùn)練方案,改變判斷方案;第二種改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以便輸出數(shù)據(jù)區(qū)分度更高,便于區(qū)別異常非異常。</p><p> 5.3訓(xùn)練方案二實驗:用單個神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進行學(xué)習(xí)</p><p> 實驗設(shè)計思路:為避免上述問題,改變訓(xùn)練順序和訓(xùn)練方法,單組數(shù)據(jù)輸入單個bp神經(jīng)網(wǎng)絡(luò)。為盡量得出可區(qū)分地數(shù)據(jù),強化局部異常點特性。<
72、;/p><p> 實驗方案:對神經(jīng)網(wǎng)絡(luò)BP1,先使用非異常點經(jīng)行訓(xùn)練,教師信號為0。然后再對異常點進行訓(xùn)練,教師信號為1。</p><p> (1) 對所有非異常點數(shù)據(jù),按組分別對BP1進行訓(xùn)練,教師信號都為1,(ticdata2000.txt數(shù)據(jù)庫里面大部分為正常數(shù)據(jù))保存BP1權(quán)值;</p><p> (2)加載BP1數(shù)據(jù)到BP2, 針對數(shù)據(jù)庫每個異常點,教師
73、信號統(tǒng)一修改為0.1至0.7之間地任何一個數(shù)值,正向(數(shù)據(jù)庫地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。訓(xùn)練完后,保存訓(xùn)練權(quán)值。</p><p> 實驗觀察:測試數(shù)據(jù)庫獨個輸進BP1計算。整個數(shù)據(jù)庫的所有計算結(jié)果,不管異常點非異常點的計算結(jié)果,都在0到1這個區(qū)間內(nèi)呈現(xiàn)正態(tài)分布。數(shù)據(jù)主要疊加在兩個教師信號數(shù)值之間,難以區(qū)分。</p><p> 實驗結(jié)果失敗。數(shù)據(jù)難以區(qū)分。</p>
74、<p> 根據(jù)實際數(shù)據(jù),越逼近1地越小于第二次訓(xùn)練地教師信號地,都為異常點。比如本次第一次訓(xùn)練教師信號1,第二次異常點信號0.7,結(jié)果異常點主要集中在小于0.7和大于0.8之間,其中小于0.5和大于0.9異常點占地比率最大。</p><p> 正態(tài)分布地兩邊。第二次訓(xùn)練把非異常數(shù)據(jù)都集中在兩次教師信號中間。</p><p> 數(shù)據(jù)都呈現(xiàn)正態(tài)分布,不好處理,特別是兩個教師信
75、號數(shù)值中間區(qū)間異常點與非異常點占自己比例都是很大,難以區(qū)分。</p><p> 解決方案,找一種訓(xùn)練方法讓異常非異常點往不同方向逼近,并使其不互相影響。</p><p> 5.4訓(xùn)練方案三實驗:多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策</p><p> 5.4.1實驗設(shè)計思路</p><p> 用一個神經(jīng)網(wǎng)絡(luò)表示異常點地特征,教師信號1;用另一
76、個異常點表示非異常點地特征,教師信號0.為了有一個好地區(qū)分度。同時測試數(shù)據(jù)可以通過進行不同神經(jīng)網(wǎng)絡(luò)計算兩次,以便得結(jié)果進行具體判斷結(jié)果。算法結(jié)構(gòu)圖如圖5.2.</p><p> 圖 5.2 訓(xùn)練方案圖</p><p> 5.4.2實驗方案及步驟</p><p> 訓(xùn)練方案,把訓(xùn)練集合,分成兩個集合,一個為正常數(shù)據(jù)集合,一個異常。每個訓(xùn)練次數(shù)少于40次(根據(jù)實際
77、增長速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。訓(xùn)練強度不要太大,以便避免無法發(fā)現(xiàn)局部異常特征地數(shù)據(jù)。</p><p> 訓(xùn)練準(zhǔn)備:訓(xùn)練采用ticdata2000.txt地前4000組數(shù)據(jù),前85個屬性為訓(xùn)練輸入,第86個為訓(xùn)練用教師信號。觀察測試采用所有ticeval2000.txt作為輸入,tictgts2000.txt為測試數(shù)據(jù)實際結(jié)果,已知正常數(shù)據(jù)3762,異常238.,通過這個可以輔助分析。<
78、;/p><p><b> 流程:</b></p><p> ?。?)第一組數(shù)據(jù)單個輸入BP1訓(xùn)練,保存相應(yīng)BP1權(quán)值,教師信號0.0,ticdata2000正常數(shù)據(jù)訓(xùn)練;</p><p> ?。?)第二組數(shù)據(jù)單個輸入BP2訓(xùn)練,保存BP2權(quán)值,教師信號1.0,ticdata2000異常數(shù)據(jù)訓(xùn)練;</p><p><b
79、> 測試方法:</b></p><p> 通過測試地兩個數(shù)據(jù)庫,輸?shù)接?xùn)練后地兩個神經(jīng)網(wǎng)絡(luò),同時借助已知數(shù)據(jù)捕獲有用數(shù)據(jù)進行分析。</p><p> 觀察測試數(shù)據(jù)庫計算分布結(jié)果分布情況,并統(tǒng)計分布情況(表5.1. 表5.2.表5.3表5.4)。</p><p> 表 5.1BP1正常測試數(shù)據(jù)地分布輸出統(tǒng)計(tictgts2000中為0) (
80、單位:個數(shù))</p><p> 表 5.2BP1異常測試數(shù)據(jù)地分布統(tǒng)計輸出(tictgts2000中為1) (單位:個數(shù))</p><p> 5.3 BP2正常測試數(shù)據(jù)地輸出統(tǒng)計(tictgts2000中為0) (單位:個數(shù))</p><p> 表 5.4BP2異常測試數(shù)據(jù)地輸出統(tǒng)計(tictgts2000中為1) (單位:個數(shù))</p>&
81、lt;p><b> 5.4.3實驗分析</b></p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示異常點計算結(jié)果,系列2表示非異常點計算結(jié)果</p><p> 圖5.3
82、使用已訓(xùn)練的BP1計算結(jié)果分布</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列2表示異常點計算結(jié)果,系列1表示非異常點計算結(jié)果</p><p> 圖5.4使用已訓(xùn)練的BP2計算結(jié)果分布</p&g
83、t;<p> 已知BP1保存的是正常數(shù)據(jù)地特性,越逼近0越是屬于正常數(shù)據(jù)特性;BP2保存的是異常數(shù)據(jù)地特性。</p><p> 表5.1BP1計算,正異常數(shù)據(jù)地實際輸出,集中在0-0.1之中。無大于0.1地任何數(shù)據(jù)。剛好所有正常數(shù)據(jù)都在0.1之下。</p><p> 表5.2BP1計算,異常數(shù)據(jù)地實際輸出集中在0-0.1,證明異常數(shù)據(jù)特性被正常數(shù)據(jù)所包含。</p&
84、gt;<p> 表5.3BP2計算,異常點數(shù)據(jù)集中在0.6-1.0之間,剛好是已知異常點個數(shù)。</p><p> 表5.4BP2計算,正常數(shù)據(jù)集中在1.4-1.0之間,BP2為異常點特性,證明正常數(shù)據(jù)有很大一部分特征與異常數(shù)據(jù)特征有交集。</p><p> 綜合上面各個表和圖5.3和圖5.4分析:從上表可以推出,對于未知檢測數(shù)據(jù)輸入,呈現(xiàn)無法區(qū)分地現(xiàn)象。圖5.3圖5.4
85、見數(shù)據(jù)呈現(xiàn)疊加分布,即分布一樣,無法區(qū)分異常與異常與否。</p><p> 5.4.4實驗失敗原因分析</p><p> (1)可能是數(shù)據(jù)特征疊加問題,異常與分異常具有很強地交叉特征。</p><p> 單位:橫軸屬性順序,縱軸屬性數(shù)值。</p><p> 注:訓(xùn)練數(shù)據(jù)庫中的,每個點代表一個屬性值,橫軸代表屬性順序,縱軸代表屬性值.&
86、lt;/p><p> 圖 5.5組正常數(shù)據(jù)</p><p> 單位:橫軸屬性順序,縱軸屬性數(shù)值。</p><p> 注:訓(xùn)練數(shù)據(jù)庫中的,每個點代表一個屬性值,橫軸代表屬性順序,縱軸代表屬性值.</p><p> 圖5.6一組異常數(shù)據(jù)</p><p> 如圖 5.5圖5.6為兩組庫中地數(shù)據(jù),大多數(shù)屬性屬于一個范圍空
87、間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來。縱軸10以下比較集中,相似特征太多。</p><p> ?。?)BP結(jié)構(gòu)過擬化。</p><p> 解決設(shè)想,減少隱層個數(shù),生成隨機,空間具有兩類特征地數(shù)據(jù)。</p><p><b> 5.5BP調(diào)參實驗</b></p><p> 對上面三個實驗地隱層進行調(diào)整,
88、主要分別取5個、15個、25個隱層單元進行訓(xùn)練測試。</p><p> 5.5.1對實驗一調(diào)整隱層實驗</p><p> 實驗方式主要通過對訓(xùn)練數(shù)據(jù)庫地訓(xùn)練,然后采用測試數(shù)據(jù)庫進行測試統(tǒng)計,實驗一方案采用組測試數(shù)據(jù)與原訓(xùn)練數(shù)據(jù)庫4000組兩兩計算,然后求和,結(jié)果為與元數(shù)據(jù)庫整體相異地程度。根據(jù)數(shù)據(jù)分布,和原來測試結(jié)果進行對照分析。一下摘取部分信息。</p><p&g
89、t; 5、15、25個隱層結(jié)點訓(xùn)練后測試結(jié)果與已知結(jié)果對照表:</p><p> 表5.5 5個隱層測試結(jié)果前11組 (單位:相似度)</p><p> 表5.6 15個隱層測試結(jié)果前11組 (單位:相似度)</p><p> 表5.7 15個隱層測試結(jié)果前12組 (單位:相似度)</p><p> 通過表5.5 表5.6 表5
90、.7 表計算結(jié)果分析,沒有出現(xiàn)較好區(qū)分度,無法做未知數(shù)據(jù)異常與否地判斷。同時也可看到與上面實驗一樣結(jié)果,證明不是算法問題,而是數(shù)據(jù)特征不好區(qū)分。</p><p> 5.5.2對實驗二調(diào)整隱層實驗</p><p> 實驗方式,調(diào)整隱層神經(jīng)單元個數(shù)5、15、25分別做一次,每次訓(xùn)練完的權(quán)值去計算測試數(shù)據(jù)庫,然后通過已知結(jié)果,統(tǒng)計異常點與非異常在0到1之間的分布情況,看是否有區(qū)分度較高地方案
91、。</p><p><b> 實驗計算結(jié)果:</b></p><p> 表5.8 5個隱層實驗結(jié)果 單位:個數(shù)</p><p> (單位:縱軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.8,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p>&
92、lt;p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p> 圖5.7 5個隱層實驗結(jié)果</p><p> 表5.9 15個隱層實驗結(jié)果 單位:個數(shù)</p><p> 5.10 25個隱層實驗結(jié)果 單位:個數(shù)</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p>
93、<p> 注:對照表5.9,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p> 圖5.8 15個隱層實驗結(jié)果</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.10
94、,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p> 圖5.9 25個隱層實驗結(jié)果</p><p> 通過表5.8、表5.9、表5.10、 圖5.7、圖5.8、圖5.9觀察分析,數(shù)據(jù)依然呈現(xiàn)之前實驗地分布情況,不是BP算法隱層太多地問題。</p&
95、gt;<p> 5.5.3對實驗三調(diào)整隱層實驗</p><p> 分別把隱層單元改為5、15、25分別按實驗三方案做實驗。4000組測試數(shù)據(jù)。下面為計算結(jié)果分布。結(jié)果如表5.11至表5.13。</p><p> 表5.11 5個隱層實驗結(jié)果 單位:個數(shù)</p><p> 表5.12 15個隱層實驗結(jié)果 單位:個數(shù)</p>
96、<p> 表5.13 25個隱層實驗結(jié)果 單位:個數(shù)</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.11,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p>
97、 圖5.10 5個隱層實驗結(jié)果</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.12,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p> 圖5.11 15個隱層實驗結(jié)果&
98、lt;/p><p> (單位:縱軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.13,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點計算結(jié)果,系列2表示異常點計算結(jié)果</p><p> 5.12 25個隱層實驗結(jié)果</p><p>
99、; 數(shù)據(jù)分布一樣,無法區(qū)分。</p><p> 通過上面幾個實驗可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。</p><p><b> 5.6數(shù)據(jù)仿真實驗</b></p><p><b> 5.6.1實驗思路</b></p><p> 根據(jù)實驗5.5失敗原因分析設(shè)計,規(guī)范化數(shù)據(jù),隨機生成
100、具備兩類特征數(shù)據(jù)。本實驗BP結(jié)構(gòu)采用隱層5個神經(jīng)元,輸出層一個。出于簡化方案,只訓(xùn)練非異常數(shù)據(jù),異常數(shù)據(jù)特征不太可控。</p><p><b> 5.6.2實驗步驟</b></p><p> 生成隨機數(shù)據(jù),正常數(shù)據(jù)五個屬性每個都限制在0-0.5之前,異常數(shù)據(jù)每個屬性都限制在0.5-1.0之間。先生成20組數(shù)據(jù),17組正常數(shù)據(jù),3組異常。</p>&l
101、t;p> 接入神經(jīng)網(wǎng)絡(luò)對非異常數(shù)據(jù)進行訓(xùn)練。組數(shù)據(jù)結(jié)束條件教師信號與實際輸出相差絕對值 0.5和次數(shù)time 300次。</p><p> 保存訓(xùn)練后權(quán)值,對原訓(xùn)練數(shù)據(jù)進行收斂性檢查,同時查看二十組數(shù)據(jù)分布。</p><p> 隨機生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進行計算測試,查看分析結(jié)果數(shù)據(jù)分布。</p><p> ?。▎挝唬?/p>
102、縱軸屬性值,橫軸順序表示屬性順序,同一種圖形表示一組數(shù)據(jù))</p><p> 注:正常數(shù)據(jù)五個屬性每個都限制在0-0.5之前,異常數(shù)據(jù)每個屬性都限制在0.5-1.0之間???0組,17組正常數(shù)據(jù),3組異常。每一組數(shù)據(jù)由一種圖形構(gòu)成。17,18,19為異常數(shù)據(jù)。</p><p><b> 圖5.13 隨機數(shù)</b></p><p><b
103、> 5.6.3實驗結(jié)果</b></p><p> 訓(xùn)練完后神經(jīng)網(wǎng)絡(luò)與訓(xùn)練數(shù)據(jù)計算結(jié)果,如圖5.14。</p><p> 計算第二組生成地隨機測試數(shù)據(jù),結(jié)果如圖5.15。</p><p> 單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。</p><p> 圖5.14 測試訓(xùn)練收斂與否(每個點代表一個結(jié)果)</p&g
104、t;<p><b> 5.6.4結(jié)果分析</b></p><p> 根據(jù)上面結(jié)果,可以看出BP具備特征記憶能力能夠在這種情況下被使用,并且能夠區(qū)分自身訓(xùn)練集合地特征。圖5.14正常點計算范圍集中在0.47到0.5之間,異常點計算結(jié)果在0.43-0.46之間,可以明顯區(qū)分開發(fā)來。同樣圖5.15也可以區(qū)分清楚。證明BP具備一定數(shù)據(jù)特征篩選能力。在本實驗過程中同時進行了不同數(shù)據(jù)集
105、合地實驗,多屬性特征穿插混淆,總體能夠的到穩(wěn)定結(jié)果,多屬性特征則比較不穩(wěn)定。 </p><p><b> 5.7實驗整體分析</b></p><p> 根據(jù)上面實驗,總地來說在實際異常點檢測上面,單純BP神經(jīng)網(wǎng)未能達到預(yù)期異常點檢測地效果,5.2,5.3,5.4的實驗都失敗,不管異常非異常在訓(xùn)練后,計算結(jié)果分布都呈現(xiàn)難以區(qū)分判斷地現(xiàn)象。5.2呈現(xiàn)無規(guī)則分布,總體呈
106、現(xiàn)靠近非異常點教師信號分布,對未知數(shù)據(jù)無法得到確切的判斷方案。對于5.3和5.4也一樣,5.3計算結(jié)果呈現(xiàn)正態(tài)分布,異常與非異常點計算結(jié)果都是,很難獲得一個較高準(zhǔn)確率地檢測方案,數(shù)據(jù)較集中分布狀況一樣,無法很好分離開來,5.4同樣也出現(xiàn)分布狀況一樣地現(xiàn)象。究其原因,可能是BP結(jié)構(gòu)隱層單元過多,數(shù)據(jù)特性之間交叉特性太多,以使計算結(jié)果無法區(qū)分開來。5.5證明不是BP結(jié)構(gòu)問題,而是由于數(shù)據(jù)特征相似性太大,只有一兩個屬性相異來分類。對于大規(guī)模多
107、特征地數(shù)據(jù)集合,單純BP很難做出很好解決方案。通過在圖表中顯示地coil2000異常與非異常數(shù)據(jù),具有很高地相似性,只有小部分屬性分布不同,很難使用bp獲得很好地分離方案。</p><p> 單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。</p><p> 圖5.15 測試訓(xùn)練收斂與否(每個點代表一個結(jié)果)</p><p> 但是實驗5.6卻有讓我們看到了希望,對
108、于區(qū)別單一、兩類特征數(shù)據(jù),還是具備相當(dāng)?shù)乜尚行浴T囼炛形覀儾捎昧藘深愄卣鞯仉S機數(shù),得到了很好地區(qū)分度。根據(jù)數(shù)據(jù)分布,可以很好得到判斷方案??梢夿P具備一定的分類器能力,采用多分類器方法對數(shù)據(jù)集合進行學(xué)習(xí),還是具備一定地可行性。當(dāng)然實際應(yīng)用還會出現(xiàn)其他很多需要解決地問題。</p><p> 通過實驗5.6后面實驗過程多特征地實驗地經(jīng)歷,可以知道如果做分類器對待多特征可以采用多BP網(wǎng)絡(luò)學(xué)習(xí)。同時對于出現(xiàn)特征交叉的問
109、題,比如數(shù)據(jù)組A的前幾個屬性和B數(shù)據(jù)組前幾個屬性一樣,然后最后屬性存在不同,屬于不同類(異常和非異常),對與這種情況很難處理。時間限制未作深入研究。</p><p><b> 總結(jié)與展望</b></p><p> 綜上分析所述,BP具備一定特征分類能力,但是要通過這種分類能力去做異常點檢測需要考慮很多因素,并且需要做很多輔助工作。特別是對于不同類數(shù)據(jù)而且特征較少數(shù)
110、據(jù),難以分離區(qū)別。</p><p> 假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點檢測,實際應(yīng)用則采用BP充當(dāng)分類器,并且根據(jù)特征采用多分類器結(jié)構(gòu),解決數(shù)據(jù)多特征問題。同時對于那些不同類而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專家系統(tǒng)方式,對這些具備相似性較高而又不同類進行量化可控地判斷。同時對于超出已知范疇特性地數(shù)據(jù),進行保存處理,訓(xùn)練出新的
111、神經(jīng)網(wǎng)絡(luò),同時通過人工專家系統(tǒng)進行更新。這樣保證在可控范圍能得到更高準(zhǔn)確性。</p><p> 同樣如果能夠有好地方案,能夠明顯獲得已知數(shù)據(jù)特征,并且能夠很好分離相近特征屬性的方案,那將是有很好速度檢測到異常數(shù)據(jù),同時配合專家決策系統(tǒng)能夠使結(jié)果更具實際地準(zhǔn)確性,而不是單純地數(shù)據(jù)異常準(zhǔn)確性。當(dāng)然這建立在已知數(shù)據(jù)集合有足夠豐富特征。對于未知數(shù)據(jù)特征可以報警,通過人工干預(yù)使系統(tǒng)學(xué)習(xí)到新特征,或者自動控制地方法學(xué)習(xí)。&
112、lt;/p><p> 總地來說,使用神經(jīng)網(wǎng)絡(luò)分類,對于相似性比較高,差異集中在局部特征的數(shù)據(jù),可以使用特征映射相關(guān)技術(shù)遺傳算法、啟發(fā)式搜索、特征隨機選取等得到這些特征差異。對于正常數(shù)據(jù)多特征地問題,特別是正常數(shù)據(jù)有多類數(shù)據(jù)的,可以采用多神經(jīng)網(wǎng)絡(luò)融合,即多神經(jīng)網(wǎng)絡(luò)記錄多特征。</p><p><b> 參考文獻</b></p><p> [1]
113、Hawkins D. Identification of Outliers[M]. London.Chapman and hall. 1980.</p><p> [2]Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. Distance-Based Outlier:Algorithms Applications[J].VLDB.2000.8(3-4):237
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件管理畢業(yè)論文--bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究
- 計算機畢業(yè)論文--bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究
- 《bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究_畢業(yè)論文》(49頁)doc
- 畢業(yè)設(shè)計--bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究
- 計算機系畢業(yè)論文--bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究
- [原創(chuàng)]計算機專業(yè)論文——bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性研究
- bp神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法改進初探【畢業(yè)論文】
- 房地產(chǎn)可行性研究畢業(yè)論文
- 蕭山足浴展可行性研究[畢業(yè)論文]
- 基于Curvelet變換和BP神經(jīng)網(wǎng)絡(luò)的織物疵點檢測.pdf
- 模糊bp神經(jīng)網(wǎng)絡(luò)web用戶分類算法研究-碩士畢業(yè)論文
- 房地產(chǎn)項目可行性研究畢業(yè)論文
- 可行性研究畢業(yè)論文參考文獻格式
- 畢業(yè)論文---房地產(chǎn)項目可行性研究
- 畢業(yè)設(shè)計--基于bp神經(jīng)網(wǎng)絡(luò)的應(yīng)用
- 社區(qū)醫(yī)院夜門診可行性研究(畢業(yè)論文)
- BP神經(jīng)網(wǎng)絡(luò)在牛乳檢測中的應(yīng)用.pdf
- 畢業(yè)論文---房地產(chǎn)項目可行性研究
- 畢業(yè)論文“某企業(yè)pdm項目可行性研究
- 基于bp神經(jīng)網(wǎng)絡(luò)算法的車牌字符識別---畢業(yè)論文
評論
0/150
提交評論