版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p> 本科畢業(yè)設(shè)計(論文) </p><p> BP神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究</p><p> 學(xué) 院 計算機(jī)學(xué)院 </p><p> 專 業(yè) 軟件工程 </p><p> 年級班別
2、 </p><p> 學(xué) 號 </p><p> 學(xué)生姓名 </p><p> 指導(dǎo)教師 </p><p><b> 2010年 5 月</b></
3、p><p><b> 摘 要</b></p><p> 異常點(diǎn)數(shù)據(jù)是指數(shù)據(jù)集中與眾不同數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的量小,但是對于我們的日常生產(chǎn)生活的影響極大。因此,異常點(diǎn)檢測被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測,金融保險,天氣預(yù)報以及新藥研制等領(lǐng)域。相對于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測被稱作小模式數(shù)據(jù)挖掘。BP算法是一種常用的數(shù)據(jù)挖掘算法。但是BP算法進(jìn)行實(shí)際數(shù)據(jù)的異常點(diǎn)數(shù)據(jù)挖掘過程
4、中存在:實(shí)際數(shù)據(jù)的維數(shù)較高,存在冗余特征的干擾,以及在高維特征下,數(shù)據(jù)量不充分的問題。因此,本文分析BP神經(jīng)網(wǎng)絡(luò)處理各種數(shù)據(jù)的情況,并得到以下結(jié)果。(1)BP神經(jīng)網(wǎng)絡(luò)能夠較好的分離特征單一的仿真數(shù)據(jù);但是(2)特征相似性較大的數(shù)據(jù)集,難以分離判斷;(3)正常數(shù)據(jù)不充分或者不具有代表性,因此正常數(shù)據(jù)類學(xué)習(xí)不充分,從而導(dǎo)致異常無法判斷。針對以上問題,本文提出了以下的改進(jìn)措施:(1)BP算法前進(jìn)行特征約簡(映射)從中選取有益于異常檢測的特征(
5、2)多神經(jīng)網(wǎng)絡(luò)融合,不同神經(jīng)網(wǎng)絡(luò)識別不同的特征,相互取長補(bǔ)短,融合后得到最終的結(jié)果。</p><p> 關(guān)鍵字:異常,BP,異常點(diǎn)檢測,神經(jīng)網(wǎng)絡(luò)</p><p><b> Abstract</b></p><p> Outlier data is the data set different data. This part of the
6、small amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in network intrusion detection, finance, insurance, weather, and new drug development and other fields
7、. Relative to the large number of normal data mining, the anomaly detection model is called data mining small. BP algorithm is a commonly used data mining algorithm. But the BP algorithm to real data outliers exist in &l
8、t;/p><p> Key Words:Outliers-Data,BP,Algorithms,Neural Networks</p><p><b> 目 錄</b></p><p><b> 1引言1</b></p><p><b> 1.1背景1</b><
9、/p><p> 1.2傳統(tǒng)已有異常點(diǎn)算法介紹1</p><p> 1.2.1基于統(tǒng)計學(xué)的異常點(diǎn)檢測算法1</p><p> 1.2.2基于距離的異常點(diǎn)檢測算法2</p><p> 1.2.3基于密度的算法3</p><p> 1.2.4基于偏差的異常點(diǎn)檢測5</p><p>
10、 1.2.5基于聚類的異常點(diǎn)檢測算法6</p><p> 2基于屬性特征在異常點(diǎn)檢測中的研究7</p><p> 3 BP神經(jīng)網(wǎng)絡(luò)介紹9</p><p><b> 3.1模型簡介9</b></p><p> 3.2計算各層節(jié)點(diǎn)輸出9</p><p> 3.3 修正權(quán)值10&l
11、t;/p><p> 4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計13</p><p> 4.1可微閾值單元13</p><p> 4.2單個BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計13</p><p> 4.3BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的基本步驟14</p><p><b> 5實(shí)驗(yàn)研究17</b></p>
12、<p> 5.1研究使用的數(shù)據(jù)庫介紹17</p><p> 5.2訓(xùn)練方案一實(shí)驗(yàn):把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量17</p><p> 5.3訓(xùn)練方案二實(shí)驗(yàn):用單個神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進(jìn)行學(xué)習(xí)18</p><p> 5.4訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策19</p><p> 5.4
13、.1實(shí)驗(yàn)設(shè)計思路19</p><p> 5.4.2實(shí)驗(yàn)方案及步驟20</p><p> 5.4.3實(shí)驗(yàn)分析22</p><p> 5.4.4實(shí)驗(yàn)失敗原因分析23</p><p> 5.5BP調(diào)參實(shí)驗(yàn)25</p><p> 5.5.1對實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn)25</p><p>
14、 5.5.2對實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn)26</p><p> 5.5.3對實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn)29</p><p> 5.6數(shù)據(jù)仿真實(shí)驗(yàn)31</p><p> 5.6.1實(shí)驗(yàn)思路31</p><p> 5.6.2實(shí)驗(yàn)步驟31</p><p> 5.6.3實(shí)驗(yàn)結(jié)果32</p><p&g
15、t; 5.6.4結(jié)果分析33</p><p> 5.7實(shí)驗(yàn)整體分析33</p><p><b> 總結(jié)與展望35</b></p><p><b> 致謝39</b></p><p><b> 1引言</b></p><p><b&
16、gt; 1.1背景</b></p><p> 異常點(diǎn)(離群點(diǎn)或者孤立點(diǎn))檢測是數(shù)據(jù)挖掘中一個重要方面,Hawkins[1]最早給出了異常點(diǎn)的本質(zhì)定義:異常點(diǎn)是數(shù)據(jù)集中與眾不同地數(shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生與完全不同的機(jī)制。異常點(diǎn)可能由于度量或執(zhí)行錯誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。例如,一個公司首席執(zhí)行官的工資自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,成為一個異常點(diǎn)。許多數(shù)據(jù)挖
17、掘算法試圖減少異常點(diǎn)的對挖掘結(jié)果的影響,或者在挖掘過程中排除異常點(diǎn)。然而異常點(diǎn)可能隱藏著重要的信息,也許比一般的數(shù)據(jù)更有價值。因此人們開始逐漸研究異常點(diǎn)挖掘算法。目前異常點(diǎn)檢測已經(jīng)開始用于信用卡欺詐、網(wǎng)絡(luò)入侵檢測以及金融申請和交易欺詐等領(lǐng)域[2],近年來異常點(diǎn)檢測已成為數(shù)據(jù)挖掘研究中的一個熱點(diǎn)問題。</p><p> 傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密
18、度方法。本文從特征與異常檢測的關(guān)系出發(fā)進(jìn)行研究。BP神經(jīng)網(wǎng)絡(luò)適用于儲存和描述這種復(fù)雜的關(guān)系。但是異常檢測過程,通常數(shù)據(jù)的位數(shù)較高,在高維特征存在冗余特征干擾,以及高維特征下數(shù)據(jù)不充分的問題,因此,本文研究了BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于不同情況。</p><p> 1.2傳統(tǒng)已有異常點(diǎn)算法介紹</p><p> 1.2.1基于統(tǒng)計學(xué)的異常點(diǎn)檢測算法</p><p> 早
19、期的異常點(diǎn)檢測算法大多數(shù)是基于統(tǒng)計學(xué)實(shí)現(xiàn)的,通??梢苑譃榛诜植嫉臋z測算法和基于深度的檢測算法兩類。前者一般通過先構(gòu)造一個標(biāo)準(zhǔn)概率分布來擬合數(shù)據(jù)集,然后根據(jù)概率分布來確定異常點(diǎn),例如Rosner提出的單樣本多個異常檢測算法ESD算法,和Yamnishi等使用混合高斯模型的異常點(diǎn)檢測算法。此類算法估計多維分布的概率模型的難度較大,且準(zhǔn)確性低。基于深度方法主要以計算幾何為基礎(chǔ),通過計算不同層的K-D凸包將外層的對象判定為異常點(diǎn)。但當(dāng)數(shù)據(jù)集較
20、大,此類方法在維數(shù)上的伸縮性不好。</p><p> 基于統(tǒng)計的異常點(diǎn)檢測方法易于理解,實(shí)現(xiàn)方便,但此方法檢測出來的異常點(diǎn)很可能被不同的分布模型檢測出來,解釋異常點(diǎn)意義時經(jīng)常發(fā)生多義性。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)、異常點(diǎn)的數(shù)目等對基于統(tǒng)計的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多數(shù)據(jù)挖掘問題要
21、求在多維空間中發(fā)現(xiàn)異常點(diǎn),目前幾乎沒有多元的不一致檢驗(yàn),當(dāng)沒有特定的檢驗(yàn)時,或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時,此類方法不能確保所有的異常點(diǎn)被發(fā)現(xiàn)。</p><p> 1.2.2基于距離的異常點(diǎn)檢測算法</p><p> 基于距離的異常點(diǎn)檢測算法的基本思想是把數(shù)據(jù)點(diǎn)看作空間中的點(diǎn),異常點(diǎn)被定義為與大多數(shù)數(shù)據(jù)距離較遠(yuǎn)的點(diǎn)。通常這類異常被描述為。當(dāng)且僅當(dāng)數(shù)據(jù)集中至少有個數(shù)據(jù)點(diǎn)與
22、點(diǎn)的距離大于時,數(shù)據(jù)對象點(diǎn)稱為異常點(diǎn)。這類方法與基于密度的檢測算法有很大的相似之處,不需要事先知道數(shù)據(jù)集的分布模型,對于任意分布模型均有效。</p><p> 基于距離方法最早是由Knorr和Ng在1998年提出的。他們用DB(p,d)來表示數(shù)據(jù)集中的異常點(diǎn),采用不同的參數(shù)與,可以表示所有的異常點(diǎn)。與此 定 義 相應(yīng)的算法有三種,它們是基于索引(Index-based)的算法,嵌套循環(huán)(Nest-Loop,NL
23、)算法,基于單元或劃分(cell-based)的算法等?;谒饕姆椒ㄒ蕾嚩嗑S索引結(jié)構(gòu)(R-trees,X -trees,KD -tress等)的性能。隨著維數(shù)的增加,所有的索引結(jié)構(gòu)的性能迅速下降,使得算法性能不佳。NL算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的次數(shù)。以上兩方法的算法時間復(fù)雜度為,當(dāng)遇到大量數(shù)據(jù)集時它們還有待改進(jìn)?;趩卧姆椒ㄊ前褦?shù)據(jù)集劃分為單元,逐個單元的檢測,而非逐個對象的檢測。它的時間復(fù)雜度為,其中取決于單元的個數(shù)和
24、維數(shù)。 Knorr和Ng通過試驗(yàn)證明,當(dāng)時此算法優(yōu)于NL算法。</p><p> 相對前兩者,基于單元的算法無論是在數(shù)據(jù)量還是在維數(shù)增加時,性能都是最好的。此算法需要將數(shù)據(jù)空間分隔成彼此獨(dú)立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。對于參數(shù)的每個變化都需要調(diào)整單元結(jié)構(gòu),因此會影響了算法的結(jié)果。后來,Rastogi和Ramaswamy提出了一個新的基于距離的異常點(diǎn)定義,即基于距離的第最近鄰(k-th Nearest
25、 Neighbor)異常點(diǎn)挖掘方法。給定維空間中包含個點(diǎn)的數(shù)據(jù)集、參數(shù)和 (自然數(shù)),表示點(diǎn)和它的第最近鄰的距離。如果滿足的點(diǎn)q不超過n-1個,即,那么稱為異常點(diǎn)。如果對數(shù)據(jù)對象根據(jù)它們的距離進(jìn)行排序,那么前n個點(diǎn)就被看作異常點(diǎn)。他們用聚類算法首先對數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。相對于異常點(diǎn)挖掘,異常點(diǎn)挖掘方法人為干預(yù)的因素要小一些。但它也有自身缺陷,就是要計算數(shù)據(jù)集中所有點(diǎn)的,這顯然影響到算法的效率。對低維空間的數(shù)據(jù)此方法優(yōu)于
26、索引算法和NL算法,但對于高維數(shù)據(jù)此算法性能不高。</p><p> Bay和Sc hwabacher在沿用Rastogi和Ramaswamy對于異常定義的基礎(chǔ)上,提出了一種基于隨機(jī)抽樣的檢測方法,它通過隨機(jī)抽樣的方法,減少了尋找k近鄰的范圍,在試驗(yàn)數(shù)據(jù)上獲得了幾乎線性的計算復(fù)雜度。</p><p> 隨著人們對基于距離的方法的不斷研究,一些新的、較好的算法也不斷的涌現(xiàn)。代表性的算法有
27、: 陸聲鏈等提出一個判斷異常點(diǎn)的新定義,并設(shè)計基于抽樣近似檢測算法。使得算法性能有所提高;另外,徐雪松等利用聚類算法與第k個最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。</p><p> 與基于統(tǒng)計的方法相比,它有以下幾個優(yōu)點(diǎn): 則可找出數(shù)據(jù)集中的異常點(diǎn)。</p><p> (1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了
28、基于統(tǒng)計方法僅能檢測單個屬性的缺點(diǎn)。</p><p> (2) 不必對數(shù)據(jù)集的相關(guān)信息(數(shù)據(jù)服從哪種統(tǒng)計分布模型,數(shù)據(jù)類型特點(diǎn)等)足夠了解。實(shí)際上在給出了距離的度量,并對數(shù)據(jù)進(jìn)行預(yù)處理后。</p><p> 1.2.3基于密度的算法</p><p> 基于密度方法是在基于距離的方法上改進(jìn)而來。基于密度的異常觀點(diǎn)比基于距離的異常觀點(diǎn)更貼近Hawkins的異常定義
29、,因此能夠檢測出基于距離異常算法所不能識別的局部異常。局部異常觀點(diǎn)摒棄了以前所有的異常定義中非此即彼的絕對異常觀念,更加符合現(xiàn)實(shí)生活的中的應(yīng)用。</p><p> 所謂密度是基于任意一點(diǎn)和P點(diǎn)距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個數(shù)計算得到的。一般的對密度的定義是點(diǎn)到其量近鄰的平均距離,平均距離小則密度小?;诿芏鹊漠惓|c(diǎn)檢測,就是探測局部密度,通過不同的密度估計策略來檢測異常點(diǎn)。代表性算法主要有以下幾種。
30、</p><p> Brito等提出相互k近鄰圖(Mutual k—Nearest Neighbor,簡稱MkNN)算法,其主要思想是對每個連通子圖進(jìn)行檢測,如果包含多個結(jié)點(diǎn)就組成一個簇,如果僅有一個結(jié)點(diǎn),那么該結(jié)點(diǎn)就是異常點(diǎn)。該算法針對數(shù)據(jù)點(diǎn)的分布對各種特殊形狀都有效,但算法執(zhí)行效率不高。</p><p> (2)Ville Hautamaki等提出兩種基于密度的異常點(diǎn)檢測算法,第一
31、種算法思路為在kNN圖中,若頂點(diǎn)u成為其它點(diǎn)的k近鄰的次數(shù)少于給定閾值T時就被認(rèn)為是異常點(diǎn),另一種算法則是先對所有頂點(diǎn)的平均k近鄰距離進(jìn)行排序,然后將平均k近鄰距離大于T點(diǎn)頂點(diǎn)視為異常點(diǎn)。</p><p> (3)Papadimitriou定義了多粒度偏離系數(shù)(Multi—Granularity Deviation Factor,簡稱MDEF),該算法將多粒度偏離系數(shù)是所在鄰域的標(biāo)準(zhǔn)多粒度偏離系數(shù)的3倍的點(diǎn)判定
32、為異常點(diǎn),然而標(biāo)準(zhǔn)多粒度偏離系數(shù)的計算量大,對算法的可行性有一定的限制。</p><p> (4)Dongmei Ren等采用相對密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點(diǎn)的密度相對該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測。該方法降低了數(shù)據(jù)集的大小,提高了算法效率,但是在
33、剪枝過程中對于特殊分布的數(shù)據(jù)集就有可能將異常點(diǎn)剪掉,算法的準(zhǔn)確性受到限制。</p><p> (5)Breuning 提出了局部異常的概念及相應(yīng)異常檢測方法(DBOM算法),即數(shù)據(jù)集中的每個對象的異常程度用局部異常因子LOF來衡量。也就是說是否是異常點(diǎn)不僅僅取決于它與周圍數(shù)據(jù)的距離大小,而且與鄰域內(nèi)的密度情況有關(guān)。一個對象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點(diǎn)個數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點(diǎn)數(shù)來描述。這樣就不會像D
34、B(p,d)異常點(diǎn)那樣遺漏一部分異常點(diǎn)。LOF算法充分體現(xiàn)了“局部”的概念,每個點(diǎn)都給出了一個離群程度,離群程度最強(qiáng)的那個幾個點(diǎn)被標(biāo)記為異常點(diǎn)。文獻(xiàn)有關(guān)發(fā)面對LOF進(jìn)行推廣:一是由原來的一個鄰域的變化為兩個(計算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對象來減小計算代價;因此,使用算法比傳統(tǒng)的LOF算法有所提高。</p><p> 在現(xiàn)有的計算局部異常因子(LOF)算法中,把具有很高LOF值的對象作為異常點(diǎn)。計
35、算LOF要耗費(fèi)很大的計算量,針對此問題malik Agyemang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。這種方法主要是引入局部稀疏系數(shù)(LSC)這一概念,根據(jù)每個對象的LSC值按從大到小的順序排列整個數(shù)據(jù)集并把前n個對象作為異常點(diǎn)。</p><p> 但是,此方法在實(shí)際應(yīng)用中計算量亦是不小,效率有待提高。</p><p> 另外,岳峰等利用反向K近鄰(RKNN)這個概念提出了一
36、個異常點(diǎn)檢測算法(ODRKNN),在綜合數(shù)據(jù)集和正式數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)構(gòu)表明,該算法能有效地檢測出異常點(diǎn),且算法效率高于典型的基于密度的異常點(diǎn)檢測算法LOF和LSC的效率。</p><p> 1.2.4基于偏差的異常點(diǎn)檢測</p><p> 基于偏差的異常點(diǎn)檢測不使用統(tǒng)計檢驗(yàn)或者基于距離的度量來識別異常對象。相反,它通過檢查一組對象的主要特征來識別異常點(diǎn)。背離這種描述的對象認(rèn)為是異常點(diǎn)。
37、因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。主要有兩種技術(shù):第一種順序地比較集合中的對象,叫順序異常技術(shù)(sequential exception technique);第二種采用OLAP數(shù)據(jù)立方體方法識別大型多維數(shù)據(jù)中的異常區(qū)域。</p><p> (1) 序列異常技術(shù):Aming和Argrawal 提出一種序列異常(sequential exception)的概念。這個算法復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系,有優(yōu)
38、異的計算性能。但是并沒有得到普遍的認(rèn)同,這是因?yàn)樾蛄挟惓T诟拍钌嫌幸欢ǖ娜毕荩鼘Ξ惓|c(diǎn)存在的假設(shè)太過理想化,對現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好。</p><p> (2) OLAP數(shù)據(jù)立方體技術(shù):在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體來確定反常區(qū)域.如果一個立方體的單元值顯著地不同于根據(jù)統(tǒng)計模型得到的值,該單元被認(rèn)為是一個異常。此方法是發(fā)現(xiàn)驅(qū)動探索的一種形式。此方法由于搜索空間很大,人工探測非常困難。</p>
39、<p> 第一種概念有缺陷,遺漏了不少異常點(diǎn),時間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。第二種搜索空間大,人工探測困難,效率不高,只適用多維數(shù)據(jù)。</p><p> 1.2.5基于聚類的異常點(diǎn)檢測算法</p><p> 在聚類算法中,異常點(diǎn)檢測僅僅是聚類的副產(chǎn)品。聚類算法發(fā)展方向是優(yōu)化聚類過程,而不是提高對異常點(diǎn)檢測的能力,異常點(diǎn)檢測和聚類是兩個相對立的過程,聚類是把
40、屬于統(tǒng)一類的數(shù)據(jù)點(diǎn)聚集在一起,歸為一類,而異常點(diǎn)檢測是把和大多數(shù)數(shù)據(jù)點(diǎn)相異的點(diǎn)挖掘出來。</p><p> Su等人首先提出基于聚類的異常點(diǎn)檢測算法,聚集的較小簇被認(rèn)為是異常點(diǎn),但這中方法忽略了小聚集簇和大聚集簇之間的距離,當(dāng)一個小聚集簇和一個大聚集簇非常接近的時候,小聚集簇中的這些點(diǎn)更可能是大聚集簇的邊界點(diǎn)而不是異常點(diǎn)。</p><p> 模糊k均值聚類算法(FCM)常用于異常點(diǎn)檢測
41、,該算法動態(tài)地分配權(quán)重給每一個數(shù)據(jù)點(diǎn),權(quán)重表示該數(shù)據(jù)點(diǎn)和數(shù)據(jù)集中心之間的距離,通過各點(diǎn)的權(quán)重來判斷異常點(diǎn)。此類算法沒有先驗(yàn)知識指導(dǎo)如何確定聚類中心,只能是隨機(jī)選取,優(yōu)化搜索空間較大,算法的復(fù)雜度較大。</p><p> Hongyi Zhang等引為了提高模糊核聚類算法的運(yùn)行效率,提出了新的模糊核聚類算法,該算法用先驗(yàn)知識對參數(shù)初始化。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時間復(fù)雜度,但該算
42、法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。</p><p> 2基于屬性特征在異常點(diǎn)檢測中的研究</p><p> 傳統(tǒng)算法大都是通過數(shù)據(jù)在空間地特性來判斷檢測異常點(diǎn)。本文的方向是從特征出發(fā)研究。傳統(tǒng)算法從整個數(shù)據(jù)集合在空間中分布地特性出發(fā)研究,比如距離的從整個數(shù)據(jù)集空間距離進(jìn)行研究,同樣密度的按數(shù)據(jù)集空間密度研究,聚類也是按數(shù)據(jù)集空間特性。而本文直接從已知部分?jǐn)?shù)據(jù)維度的
43、特征著手,即是直接從每一組數(shù)據(jù)的特征來研究。</p><p> 對于單屬性特征的情況,根據(jù)數(shù)據(jù)重要性調(diào)整特征(即維度)權(quán)值,并根據(jù)數(shù)據(jù)重要性調(diào)整。假設(shè)數(shù)據(jù)特征表示在每個屬性上面,獨(dú)立沒有組合屬性表現(xiàn)特征地情況下,每一組數(shù)據(jù)屬性對應(yīng)權(quán)值數(shù)據(jù)乘積和,表示這個數(shù)據(jù)在這組數(shù)據(jù)中全局中所占的重要性。例如檢測是否是糖尿病人的數(shù)據(jù)庫,三十歲以下這個年齡維度上病人較少,然而五十歲后這個維度病人比例就多了。映射到維度為三十歲以下
44、這個維度地病人比較少,映射到維度為十歲以上較多。這樣我們可以添加一個權(quán)值與年齡這一項數(shù)據(jù)乘積,這個乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來的數(shù)據(jù)成正比,表示年齡增長能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。以便全局統(tǒng)籌決策較容易。設(shè)X為一組數(shù)據(jù)集合,可使趨向某個數(shù)值,表示這組數(shù)據(jù)某個總體特征。異?;蛘叻钱惓?,可以通過趨向某個數(shù)值表示特征異常,另一個方向數(shù)值表示非異常。</p><p> 有時候數(shù)據(jù)組合的重要性是體現(xiàn)在幾個數(shù)據(jù)地組合
45、里面,既可能體現(xiàn)在幾個屬性上面,比如說一組數(shù)組(A,B,C),可能AB組合特征不顯示異常,然而ABC組合就顯示異常,這些組合是不定地。所有在屬性權(quán)值之上需要一組對屬性不同組合特征的權(quán)值調(diào)整。</p><p><b> 圖2.1 樣例圖示</b></p><p> 如圖2.1,某個異常點(diǎn)可能異常特征是屬性1,可能是屬性1、屬性2地組合,對于同個數(shù)據(jù)庫不同點(diǎn)具有組合不
46、確定性。</p><p> 由于特征地不可確定性,數(shù)值不確定,組合不確定。我們可以采用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)調(diào)整權(quán)值。同時根據(jù)已知數(shù)據(jù)訓(xùn)練修改這些權(quán)值,使其具有識別某種組合特征的能力。使其自學(xué)習(xí)特征,自動控制調(diào)整權(quán)值及權(quán)值組合。</p><p> 人工神經(jīng)網(wǎng)絡(luò)作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點(diǎn):</p><p> ?。ǎ保┹斎?輸出映射能力。人
47、工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力,通過學(xué)習(xí),能夠根據(jù)網(wǎng)絡(luò)期望輸出和網(wǎng)絡(luò)實(shí)際輸出之差來調(diào)整神經(jīng)元間連接權(quán)值和閾值,直至使實(shí)際輸出與期望輸出之間的誤差減小到滿意的程度,這樣就實(shí)現(xiàn)了輸入到輸出的映射。人工神經(jīng)網(wǎng)絡(luò)的輸入-輸出映射能力對于預(yù)測有特別重要的意義。</p><p> ?。?)非線性特性。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性,這種非線性分散在每個神經(jīng)元,通過傳遞函數(shù)實(shí)現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實(shí)驗(yàn)數(shù)據(jù)處理過
48、程中大量的非線性問題。</p><p> ?。?)高度并行性。人工神經(jīng)網(wǎng)絡(luò)是由許多相同的簡單處理單元并聯(lián)組合而成,具有高度并行性特性,使其對特定任務(wù)的計算變得很快,對信息的處理能力與效果驚人,因此提供了一種解決高層復(fù)雜問題的能力和方法。</p><p> ?。?)良好的容錯性與聯(lián)想記憶功能。人工神經(jīng)網(wǎng)絡(luò)通過自身的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)對信息的記憶,而所記憶的信息是存儲在神經(jīng)元之間的權(quán)值中。從單個
49、權(quán)值中看不出所存儲的信息內(nèi)容,因而是分布式的存儲方式,這使得網(wǎng)絡(luò)具有良好的容錯性,既能進(jìn)行模式信息處理工作,又能進(jìn)行模式識別工作。</p><p> 因?yàn)檫@些特點(diǎn),神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在聚類分析、模式識別、信號處理、系統(tǒng)辨識、優(yōu)化計算、預(yù)測控制等領(lǐng)域。</p><p> 根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。</
50、p><p> 3 BP神經(jīng)網(wǎng)絡(luò)介紹</p><p><b> 3.1模型簡介</b></p><p> 人工神經(jīng)網(wǎng)絡(luò)理論是80年代中后期迅速發(fā)展起來的一項前沿研究領(lǐng)域,其應(yīng)用已滲透到各個領(lǐng)域。BP神經(jīng)網(wǎng)絡(luò)模型是人工神經(jīng)網(wǎng)絡(luò)的重要模型之一,應(yīng)用尤為廣泛。</p><p> BP算法主要包括兩個過程,一是由學(xué)習(xí)樣本、網(wǎng)
51、絡(luò)權(quán)值從輸入層→隱含層→輸出層逐次算出各層節(jié)點(diǎn)的輸出;二是反過來由計算輸出與實(shí)際輸出偏差構(gòu)出的誤差函數(shù)E(),用梯度下降法調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,即</p><p><b> (3.1)</b></p><p><b> 使誤差減小。</b></p><p> 設(shè)輸入層節(jié)點(diǎn)數(shù)為n,隱含層節(jié)點(diǎn)數(shù)為r,輸出層節(jié)點(diǎn)數(shù)為m,隱含層與輸
52、入層之間的權(quán)值矩陣為,隱含層節(jié)點(diǎn)閥值為,輸出層與隱含層之間權(quán)值矩陣為,輸出層節(jié)點(diǎn)閥值為,并設(shè)有N個學(xué)習(xí)樣本其中為第P個學(xué)習(xí)樣本的輸入向量,為其實(shí)際輸出向量。其中,下文中如不指明則相同。</p><p> 3.2計算各層節(jié)點(diǎn)輸出</p><p> 輸入層節(jié)點(diǎn),取其輸出與輸入相同,即</p><p> 隱含層節(jié)點(diǎn)輸入,輸出分別為:</p><p
53、><b> (3.2)</b></p><p><b> 若令則有:</b></p><p><b> ,</b></p><p><b> 。</b></p><p> 輸出層節(jié)點(diǎn)輸入,輸出分別為:</p><p>
54、;<b> (3.3)</b></p><p><b> 若令,則有:</b></p><p><b> (3.4)</b></p><p><b> 3.3 修正權(quán)值</b></p><p> 設(shè) </p&g
55、t;<p> 其中為第p個學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。</p><p> 由誤差函數(shù)調(diào)整權(quán)值有:</p><p> 其中 </p><p> 其中 </p><p><b> (3.5)</b></p><p>
56、 其中為學(xué)習(xí)速率,一般在[0,1]內(nèi)取值。</p><p><b> 權(quán)值修正為:</b></p><p><b> (3.6)</b></p><p><b> (3.7)</b></p><p> 4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計</p><p
57、><b> 4.1可微閾值單元</b></p><p> 圖 4.1可微閾值單元</p><p> 如圖 4.1 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計算它的線性組合,然后應(yīng)用一個閾值到此結(jié)果。然而,對sigmoid單元,閾值輸出是輸入的連續(xù)函數(shù)。更精確地講,sigmoid單元這樣計算輸出。</p>&l
58、t;p><b> ?。?.1)</b></p><p><b> 其中:</b></p><p><b> (4.2)</b></p><p> 經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)。注意它的輸出范圍為0到1,隨輸入單調(diào)遞增。因?yàn)檫@個函數(shù)把非常大的書值域映射到一個
59、小范圍的輸出。也叫擠壓函數(shù)。</p><p> 本算法就是想把所有整數(shù)據(jù)特征映射到一個小范圍來處理判斷。</p><p> 4.2單個BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計</p><p> 采用4.1為神經(jīng)感知器,隱層感知器根據(jù)實(shí)際數(shù)據(jù)庫的屬性確定,一般少于等于屬性個數(shù),輸出層一個輸出感知器。</p><p> 圖 4.2 BP結(jié)構(gòu)</p>
60、<p> 輸入層為一組數(shù)據(jù),全連接到隱層,隱層計算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。最后輸出0到1的數(shù)值。</p><p> 隱層輸出層的神經(jīng)元,每個的都初始化為-0.05,其他權(quán)值都初始化:(double) ((rand()/32767.0)*2-1);隨機(jī)數(shù)種子為系統(tǒng)時間。</p><p> 訓(xùn)練教師信號,按具體方案處理設(shè)定。</p>
61、<p> 4.3BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的基本步驟</p><p> (1)定義誤差函數(shù)為期望輸出與實(shí)際輸出之差的平方和:</p><p><b> ?。?.3)</b></p><p> 其中yj是輸出單元的期望輸出,是實(shí)際的輸出。</p><p> ?。?)調(diào)節(jié)權(quán)值的公式為:</p><
62、;p><b> ?。?.4) </b></p><p> 其中為學(xué)習(xí)步長,取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:</p><p> 1) 如果j是輸出層(第m層)的神經(jīng)元,則</p><p><b> ?。?.5) </b></p><p> 2) 如果j不在輸出層,而是隱含層
63、的神經(jīng)元,則</p><p><b> ?。?.6) </b></p><p> 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見誤差函數(shù)的求取是一個始于輸出層的反向傳播的遞歸過程。</p><p> (3)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達(dá)到一定的值。
64、</p><p> 反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時計算量很大,收斂較慢,而且存在局部最小的問題,根據(jù)這一問題,在具體操作時采用了加入動量項的方法:</p><p><b> (4.7) </b></p><p> 稱為動量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。</p><p><
65、b> 5實(shí)驗(yàn)研究</b></p><p> 5.1研究使用的數(shù)據(jù)庫介紹</p><p> 在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫名稱:The Insurance Company Benchmark (COIL 2000).關(guān)于保險的數(shù)據(jù),其中包括:TICDATA2000.txt,訓(xùn)練數(shù)據(jù),5822組數(shù)據(jù),每組86個屬性,第86個為是否異常的標(biāo)志變量,總地為兩類數(shù)據(jù)
66、;TICEVAL2000,測試數(shù)據(jù),4000組,每組為85個特征屬性;TICTGTS2000.txt,與ticeval2000對應(yīng)組地結(jié)果。</p><p> 5.2訓(xùn)練方案一實(shí)驗(yàn):把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量</p><p> 起初思路是采用兩兩相似性地訓(xùn)練,然后得出一個整體數(shù)據(jù)庫屬性特征的神經(jīng)網(wǎng)絡(luò)。采用表示X與Y兩者相似性差異。在神經(jīng)網(wǎng)絡(luò)則表示為兩者整體特征差異大小。假
67、設(shè)這樣能夠成功,則以后只要判斷測試數(shù)據(jù)與整體已知數(shù)據(jù)庫地整體差異大小,就可以判斷異常與否。</p><p> 神網(wǎng)絡(luò)結(jié)構(gòu)大概如下:</p><p> 注:每個方向箭頭抽象全連接</p><p> 圖 5.1 方案一圖</p><p> 隱層采用85個可微閾值單元,輸出采用一個,網(wǎng)絡(luò)全連接。每個單元為86個權(quán)重,初始化權(quán)值按4.2給出的
68、方法。</p><p> 具體方式,對已知數(shù)據(jù)集做兩兩訓(xùn)練,比如數(shù)據(jù)X和Y,做差fabsf(Xi - Yi),然后輸入一個BP神經(jīng)網(wǎng)絡(luò),已知數(shù)據(jù)庫中第86個屬性,(X 86,Y86)對應(yīng)為(0,0)則教師信號為1,(1,1)則教師信號為1,(0,1)則為0,部分順序。</p><p> 實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)庫100與4000組數(shù)據(jù)做兩兩訓(xùn)練還有4000組與4000組數(shù)據(jù)訓(xùn)練。</p>
69、;<p> 經(jīng)觀察驗(yàn)證,測試數(shù)據(jù)與已知數(shù)據(jù)地相似性與否沒法與測試計算結(jié)果數(shù)據(jù)存在必然地比例關(guān)系。輸出結(jié)果的所有數(shù)據(jù),在0到1區(qū)間之間,不管相似不相似都集中分布在靠近0,沒有區(qū)分度,不能明顯表示相似與否地概念。然后又對測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)庫,進(jìn)行相似性求和,對比測試數(shù)據(jù)中異常點(diǎn)與非異常點(diǎn)與訓(xùn)練數(shù)據(jù)庫地相似性和,依然沒有區(qū)分度。</p><p> 經(jīng)多次嘗試,降低訓(xùn)練次數(shù)精度,本實(shí)驗(yàn)方案依然失敗。&l
70、t;/p><p> 經(jīng)過大量實(shí)驗(yàn),失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。第二,訓(xùn)練方案地問題,數(shù)據(jù)集合里面,缺乏異常點(diǎn)地訓(xùn)練,bp權(quán)值能增長方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地數(shù)據(jù)來區(qū)分。第三,數(shù)據(jù)特征不顯著。第四,訓(xùn)練順序?qū)е隆?lt;/p><p> 解決方法:第一種改變訓(xùn)練方案,改變判斷方案;第二種改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以便輸出數(shù)據(jù)區(qū)分度更高,便于區(qū)別異常非異常
71、。</p><p> 5.3訓(xùn)練方案二實(shí)驗(yàn):用單個神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進(jìn)行學(xué)習(xí)</p><p> 實(shí)驗(yàn)設(shè)計思路:為避免上述問題,改變訓(xùn)練順序和訓(xùn)練方法,單組數(shù)據(jù)輸入單個bp神經(jīng)網(wǎng)絡(luò)。為盡量得出可區(qū)分地數(shù)據(jù),強(qiáng)化局部異常點(diǎn)特性。</p><p> 實(shí)驗(yàn)方案:對神經(jīng)網(wǎng)絡(luò)BP1,先使用非異常點(diǎn)經(jīng)行訓(xùn)練,教師信號為0。然后再對異常點(diǎn)進(jìn)行訓(xùn)練,教師信號為1。&l
72、t;/p><p> (1) 對所有非異常點(diǎn)數(shù)據(jù),按組分別對BP1進(jìn)行訓(xùn)練,教師信號都為1,(ticdata2000.txt數(shù)據(jù)庫里面大部分為正常數(shù)據(jù))保存BP1權(quán)值;</p><p> (2)加載BP1數(shù)據(jù)到BP2, 針對數(shù)據(jù)庫每個異常點(diǎn),教師信號統(tǒng)一修改為0.1至0.7之間地任何一個數(shù)值,正向(數(shù)據(jù)庫地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。訓(xùn)練完后,保存訓(xùn)練權(quán)值。</p>&
73、lt;p> 實(shí)驗(yàn)觀察:測試數(shù)據(jù)庫獨(dú)個輸進(jìn)BP1計算。整個數(shù)據(jù)庫的所有計算結(jié)果,不管異常點(diǎn)非異常點(diǎn)的計算結(jié)果,都在0到1這個區(qū)間內(nèi)呈現(xiàn)正態(tài)分布。數(shù)據(jù)主要疊加在兩個教師信號數(shù)值之間,難以區(qū)分。</p><p> 實(shí)驗(yàn)結(jié)果失敗。數(shù)據(jù)難以區(qū)分。</p><p> 根據(jù)實(shí)際數(shù)據(jù),越逼近1地越小于第二次訓(xùn)練地教師信號地,都為異常點(diǎn)。比如本次第一次訓(xùn)練教師信號1,第二次異常點(diǎn)信號0.7,結(jié)果
74、異常點(diǎn)主要集中在小于0.7和大于0.8之間,其中小于0.5和大于0.9異常點(diǎn)占地比率最大。</p><p> 正態(tài)分布地兩邊。第二次訓(xùn)練把非異常數(shù)據(jù)都集中在兩次教師信號中間。</p><p> 數(shù)據(jù)都呈現(xiàn)正態(tài)分布,不好處理,特別是兩個教師信號數(shù)值中間區(qū)間異常點(diǎn)與非異常點(diǎn)占自己比例都是很大,難以區(qū)分。</p><p> 解決方案,找一種訓(xùn)練方法讓異常非異常點(diǎn)往不
75、同方向逼近,并使其不互相影響。</p><p> 5.4訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策</p><p> 5.4.1實(shí)驗(yàn)設(shè)計思路</p><p> 用一個神經(jīng)網(wǎng)絡(luò)表示異常點(diǎn)地特征,教師信號1;用另一個異常點(diǎn)表示非異常點(diǎn)地特征,教師信號0.為了有一個好地區(qū)分度。同時測試數(shù)據(jù)可以通過進(jìn)行不同神經(jīng)網(wǎng)絡(luò)計算兩次,以便得結(jié)果進(jìn)行具體判斷結(jié)果。算法結(jié)構(gòu)圖如
76、圖5.2.</p><p> 圖 5.2 訓(xùn)練方案圖</p><p> 5.4.2實(shí)驗(yàn)方案及步驟</p><p> 訓(xùn)練方案,把訓(xùn)練集合,分成兩個集合,一個為正常數(shù)據(jù)集合,一個異常。每個訓(xùn)練次數(shù)少于40次(根據(jù)實(shí)際增長速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。訓(xùn)練強(qiáng)度不要太大,以便避免無法發(fā)現(xiàn)局部異常特征地數(shù)據(jù)。</p><p>
77、 訓(xùn)練準(zhǔn)備:訓(xùn)練采用ticdata2000.txt地前4000組數(shù)據(jù),前85個屬性為訓(xùn)練輸入,第86個為訓(xùn)練用教師信號。觀察測試采用所有ticeval2000.txt作為輸入,tictgts2000.txt為測試數(shù)據(jù)實(shí)際結(jié)果,已知正常數(shù)據(jù)3762,異常238.,通過這個可以輔助分析。</p><p><b> 流程:</b></p><p> ?。?)第一組數(shù)據(jù)單
78、個輸入BP1訓(xùn)練,保存相應(yīng)BP1權(quán)值,教師信號0.0,ticdata2000正常數(shù)據(jù)訓(xùn)練;</p><p> (2)第二組數(shù)據(jù)單個輸入BP2訓(xùn)練,保存BP2權(quán)值,教師信號1.0,ticdata2000異常數(shù)據(jù)訓(xùn)練;</p><p><b> 測試方法:</b></p><p> 通過測試地兩個數(shù)據(jù)庫,輸?shù)接?xùn)練后地兩個神經(jīng)網(wǎng)絡(luò),同時借助已知
79、數(shù)據(jù)捕獲有用數(shù)據(jù)進(jìn)行分析。</p><p> 觀察測試數(shù)據(jù)庫計算分布結(jié)果分布情況,并統(tǒng)計分布情況(表5.1. 表5.2.表5.3表5.4)。</p><p> 表 5.1BP1正常測試數(shù)據(jù)地分布輸出統(tǒng)計(tictgts2000中為0) (單位:個數(shù))</p><p> 表 5.2BP1異常測試數(shù)據(jù)地分布統(tǒng)計輸出(tictgts2000中為1) (單位:個數(shù)
80、)</p><p> 5.3 BP2正常測試數(shù)據(jù)地輸出統(tǒng)計(tictgts2000中為0) (單位:個數(shù))</p><p> 表 5.4BP2異常測試數(shù)據(jù)地輸出統(tǒng)計(tictgts2000中為1) (單位:個數(shù))</p><p><b> 5.4.3實(shí)驗(yàn)分析</b></p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序
81、表示每隔0.1地區(qū)間)</p><p> 注:橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示異常點(diǎn)計算結(jié)果,系列2表示非異常點(diǎn)計算結(jié)果</p><p> 圖5.3使用已訓(xùn)練的BP1計算結(jié)果分布</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p>
82、<p> 注:橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列2表示異常點(diǎn)計算結(jié)果,系列1表示非異常點(diǎn)計算結(jié)果</p><p> 圖5.4使用已訓(xùn)練的BP2計算結(jié)果分布</p><p> 已知BP1保存的是正常數(shù)據(jù)地特性,越逼近0越是屬于正常數(shù)據(jù)特性;BP2保存的是異常數(shù)據(jù)地特性。</p>
83、<p> 表5.1BP1計算,正異常數(shù)據(jù)地實(shí)際輸出,集中在0-0.1之中。無大于0.1地任何數(shù)據(jù)。剛好所有正常數(shù)據(jù)都在0.1之下。</p><p> 表5.2BP1計算,異常數(shù)據(jù)地實(shí)際輸出集中在0-0.1,證明異常數(shù)據(jù)特性被正常數(shù)據(jù)所包含。</p><p> 表5.3BP2計算,異常點(diǎn)數(shù)據(jù)集中在0.6-1.0之間,剛好是已知異常點(diǎn)個數(shù)。</p><p&g
84、t; 表5.4BP2計算,正常數(shù)據(jù)集中在1.4-1.0之間,BP2為異常點(diǎn)特性,證明正常數(shù)據(jù)有很大一部分特征與異常數(shù)據(jù)特征有交集。</p><p> 綜合上面各個表和圖5.3和圖5.4分析:從上表可以推出,對于未知檢測數(shù)據(jù)輸入,呈現(xiàn)無法區(qū)分地現(xiàn)象。圖5.3圖5.4見數(shù)據(jù)呈現(xiàn)疊加分布,即分布一樣,無法區(qū)分異常與異常與否。</p><p> 5.4.4實(shí)驗(yàn)失敗原因分析</p>
85、<p> (1)可能是數(shù)據(jù)特征疊加問題,異常與分異常具有很強(qiáng)地交叉特征。</p><p> 單位:橫軸屬性順序,縱軸屬性數(shù)值。</p><p> 注:訓(xùn)練數(shù)據(jù)庫中的,每個點(diǎn)代表一個屬性值,橫軸代表屬性順序,縱軸代表屬性值.</p><p> 圖 5.5組正常數(shù)據(jù)</p><p> 單位:橫軸屬性順序,縱軸屬性數(shù)值。&l
86、t;/p><p> 注:訓(xùn)練數(shù)據(jù)庫中的,每個點(diǎn)代表一個屬性值,橫軸代表屬性順序,縱軸代表屬性值.</p><p> 圖5.6一組異常數(shù)據(jù)</p><p> 如圖 5.5圖5.6為兩組庫中地數(shù)據(jù),大多數(shù)屬性屬于一個范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來??v軸10以下比較集中,相似特征太多。</p><p> ?。?)BP結(jié)
87、構(gòu)過擬化。</p><p> 解決設(shè)想,減少隱層個數(shù),生成隨機(jī),空間具有兩類特征地數(shù)據(jù)。</p><p><b> 5.5BP調(diào)參實(shí)驗(yàn)</b></p><p> 對上面三個實(shí)驗(yàn)地隱層進(jìn)行調(diào)整,主要分別取5個、15個、25個隱層單元進(jìn)行訓(xùn)練測試。</p><p> 5.5.1對實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn)</p>
88、<p> 實(shí)驗(yàn)方式主要通過對訓(xùn)練數(shù)據(jù)庫地訓(xùn)練,然后采用測試數(shù)據(jù)庫進(jìn)行測試統(tǒng)計,實(shí)驗(yàn)一方案采用組測試數(shù)據(jù)與原訓(xùn)練數(shù)據(jù)庫4000組兩兩計算,然后求和,結(jié)果為與元數(shù)據(jù)庫整體相異地程度。根據(jù)數(shù)據(jù)分布,和原來測試結(jié)果進(jìn)行對照分析。一下摘取部分信息。</p><p> 5、15、25個隱層結(jié)點(diǎn)訓(xùn)練后測試結(jié)果與已知結(jié)果對照表:</p><p> 表5.5 5個隱層測試結(jié)果前11組
89、(單位:相似度)</p><p> 表5.6 15個隱層測試結(jié)果前11組 (單位:相似度)</p><p> 表5.7 15個隱層測試結(jié)果前12組 (單位:相似度)</p><p> 通過表5.5 表5.6 表5.7 表計算結(jié)果分析,沒有出現(xiàn)較好區(qū)分度,無法做未知數(shù)據(jù)異常與否地判斷。同時也可看到與上面實(shí)驗(yàn)一樣結(jié)果,證明不是算法問題,而是數(shù)據(jù)特征不好區(qū)分。&l
90、t;/p><p> 5.5.2對實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn)</p><p> 實(shí)驗(yàn)方式,調(diào)整隱層神經(jīng)單元個數(shù)5、15、25分別做一次,每次訓(xùn)練完的權(quán)值去計算測試數(shù)據(jù)庫,然后通過已知結(jié)果,統(tǒng)計異常點(diǎn)與非異常在0到1之間的分布情況,看是否有區(qū)分度較高地方案。</p><p><b> 實(shí)驗(yàn)計算結(jié)果:</b></p><p> 表
91、5.8 5個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.8,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點(diǎn)計算結(jié)果,系列2表示異常點(diǎn)計算結(jié)果</p><p> 圖5.7 5個隱層實(shí)驗(yàn)結(jié)果&
92、lt;/p><p> 表5.9 15個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> 5.10 25個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> (單位:縱軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.9,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p>
93、; 系列1表示非異常點(diǎn)計算結(jié)果,系列2表示異常點(diǎn)計算結(jié)果</p><p> 圖5.8 15個隱層實(shí)驗(yàn)結(jié)果</p><p> (單位:縱軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表5.10,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點(diǎn)計算結(jié)果,系列
94、2表示異常點(diǎn)計算結(jié)果</p><p> 圖5.9 25個隱層實(shí)驗(yàn)結(jié)果</p><p> 通過表5.8、表5.9、表5.10、 圖5.7、圖5.8、圖5.9觀察分析,數(shù)據(jù)依然呈現(xiàn)之前實(shí)驗(yàn)地分布情況,不是BP算法隱層太多地問題。</p><p> 5.5.3對實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn)</p><p> 分別把隱層單元改為5、15、25分別按實(shí)
95、驗(yàn)三方案做實(shí)驗(yàn)。4000組測試數(shù)據(jù)。下面為計算結(jié)果分布。結(jié)果如表5.11至表5.13。</p><p> 表5.11 5個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> 表5.12 15個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> 表5.13 25個隱層實(shí)驗(yàn)結(jié)果 單位:個數(shù)</p><p> (單位:縱軸個數(shù),橫軸順序表示
96、每隔0.1地區(qū)間)</p><p> 注:對照表5.11,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點(diǎn)計算結(jié)果,系列2表示異常點(diǎn)計算結(jié)果</p><p> 圖5.10 5個隱層實(shí)驗(yàn)結(jié)果</p><p> (單位:縱軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p>
97、<p> 注:對照表5.12,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點(diǎn)計算結(jié)果,系列2表示異常點(diǎn)計算結(jié)果</p><p> 圖5.11 15個隱層實(shí)驗(yàn)結(jié)果</p><p> ?。▎挝唬嚎v軸個數(shù),橫軸順序表示每隔0.1地區(qū)間)</p><p> 注:對照表
98、5.13,橫軸表示0到1區(qū)間,比如1表示0到0.1計算結(jié)果分布,縱軸表示個數(shù);</p><p> 系列1表示非異常點(diǎn)計算結(jié)果,系列2表示異常點(diǎn)計算結(jié)果</p><p> 5.12 25個隱層實(shí)驗(yàn)結(jié)果</p><p> 數(shù)據(jù)分布一樣,無法區(qū)分。</p><p> 通過上面幾個實(shí)驗(yàn)可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。</
99、p><p><b> 5.6數(shù)據(jù)仿真實(shí)驗(yàn)</b></p><p><b> 5.6.1實(shí)驗(yàn)思路</b></p><p> 根據(jù)實(shí)驗(yàn)5.5失敗原因分析設(shè)計,規(guī)范化數(shù)據(jù),隨機(jī)生成具備兩類特征數(shù)據(jù)。本實(shí)驗(yàn)BP結(jié)構(gòu)采用隱層5個神經(jīng)元,輸出層一個。出于簡化方案,只訓(xùn)練非異常數(shù)據(jù),異常數(shù)據(jù)特征不太可控。</p><
100、;p><b> 5.6.2實(shí)驗(yàn)步驟</b></p><p> 生成隨機(jī)數(shù)據(jù),正常數(shù)據(jù)五個屬性每個都限制在0-0.5之前,異常數(shù)據(jù)每個屬性都限制在0.5-1.0之間。先生成20組數(shù)據(jù),17組正常數(shù)據(jù),3組異常。</p><p> 接入神經(jīng)網(wǎng)絡(luò)對非異常數(shù)據(jù)進(jìn)行訓(xùn)練。組數(shù)據(jù)結(jié)束條件教師信號與實(shí)際輸出相差絕對值 0.5和次數(shù)time 300次。</p>
101、<p> 保存訓(xùn)練后權(quán)值,對原訓(xùn)練數(shù)據(jù)進(jìn)行收斂性檢查,同時查看二十組數(shù)據(jù)分布。</p><p> 隨機(jī)生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進(jìn)行計算測試,查看分析結(jié)果數(shù)據(jù)分布。</p><p> (單位:縱軸屬性值,橫軸順序表示屬性順序,同一種圖形表示一組數(shù)據(jù))</p><p> 注:正常數(shù)據(jù)五個屬性每個都限制在0-0.5之
102、前,異常數(shù)據(jù)每個屬性都限制在0.5-1.0之間。總20組,17組正常數(shù)據(jù),3組異常。每一組數(shù)據(jù)由一種圖形構(gòu)成。17,18,19為異常數(shù)據(jù)。</p><p><b> 圖5.13 隨機(jī)數(shù)</b></p><p><b> 5.6.3實(shí)驗(yàn)結(jié)果</b></p><p> 訓(xùn)練完后神經(jīng)網(wǎng)絡(luò)與訓(xùn)練數(shù)據(jù)計算結(jié)果,如圖5.14。&
103、lt;/p><p> 計算第二組生成地隨機(jī)測試數(shù)據(jù),結(jié)果如圖5.15。</p><p> 單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。</p><p> 圖5.14 測試訓(xùn)練收斂與否(每個點(diǎn)代表一個結(jié)果)</p><p><b> 5.6.4結(jié)果分析</b></p><p> 根據(jù)上面結(jié)果,可
104、以看出BP具備特征記憶能力能夠在這種情況下被使用,并且能夠區(qū)分自身訓(xùn)練集合地特征。圖5.14正常點(diǎn)計算范圍集中在0.47到0.5之間,異常點(diǎn)計算結(jié)果在0.43-0.46之間,可以明顯區(qū)分開發(fā)來。同樣圖5.15也可以區(qū)分清楚。證明BP具備一定數(shù)據(jù)特征篩選能力。在本實(shí)驗(yàn)過程中同時進(jìn)行了不同數(shù)據(jù)集合地實(shí)驗(yàn),多屬性特征穿插混淆,總體能夠的到穩(wěn)定結(jié)果,多屬性特征則比較不穩(wěn)定。 </p><p><b> 5.7
105、實(shí)驗(yàn)整體分析</b></p><p> 根據(jù)上面實(shí)驗(yàn),總地來說在實(shí)際異常點(diǎn)檢測上面,單純BP神經(jīng)網(wǎng)未能達(dá)到預(yù)期異常點(diǎn)檢測地效果,5.2,5.3,5.4的實(shí)驗(yàn)都失敗,不管異常非異常在訓(xùn)練后,計算結(jié)果分布都呈現(xiàn)難以區(qū)分判斷地現(xiàn)象。5.2呈現(xiàn)無規(guī)則分布,總體呈現(xiàn)靠近非異常點(diǎn)教師信號分布,對未知數(shù)據(jù)無法得到確切的判斷方案。對于5.3和5.4也一樣,5.3計算結(jié)果呈現(xiàn)正態(tài)分布,異常與非異常點(diǎn)計算結(jié)果都是,很難
106、獲得一個較高準(zhǔn)確率地檢測方案,數(shù)據(jù)較集中分布狀況一樣,無法很好分離開來,5.4同樣也出現(xiàn)分布狀況一樣地現(xiàn)象。究其原因,可能是BP結(jié)構(gòu)隱層單元過多,數(shù)據(jù)特性之間交叉特性太多,以使計算結(jié)果無法區(qū)分開來。5.5證明不是BP結(jié)構(gòu)問題,而是由于數(shù)據(jù)特征相似性太大,只有一兩個屬性相異來分類。對于大規(guī)模多特征地數(shù)據(jù)集合,單純BP很難做出很好解決方案。通過在圖表中顯示地coil2000異常與非異常數(shù)據(jù),具有很高地相似性,只有小部分屬性分布不同,很難使用
107、bp獲得很好地分離方案。</p><p> 單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。</p><p> 圖5.15 測試訓(xùn)練收斂與否(每個點(diǎn)代表一個結(jié)果)</p><p> 但是實(shí)驗(yàn)5.6卻有讓我們看到了希望,對于區(qū)別單一、兩類特征數(shù)據(jù),還是具備相當(dāng)?shù)乜尚行?。試?yàn)中我們采用了兩類特征地隨機(jī)數(shù),得到了很好地區(qū)分度。根據(jù)數(shù)據(jù)分布,可以很好得到判斷方案??梢夿P具
108、備一定的分類器能力,采用多分類器方法對數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。當(dāng)然實(shí)際應(yīng)用還會出現(xiàn)其他很多需要解決地問題。</p><p> 通過實(shí)驗(yàn)5.6后面實(shí)驗(yàn)過程多特征地實(shí)驗(yàn)地經(jīng)歷,可以知道如果做分類器對待多特征可以采用多BP網(wǎng)絡(luò)學(xué)習(xí)。同時對于出現(xiàn)特征交叉的問題,比如數(shù)據(jù)組A的前幾個屬性和B數(shù)據(jù)組前幾個屬性一樣,然后最后屬性存在不同,屬于不同類(異常和非異常),對與這種情況很難處理。時間限制未作深入研究。
109、</p><p><b> 總結(jié)與展望</b></p><p> 綜上分析所述,BP具備一定特征分類能力,但是要通過這種分類能力去做異常點(diǎn)檢測需要考慮很多因素,并且需要做很多輔助工作。特別是對于不同類數(shù)據(jù)而且特征較少數(shù)據(jù),難以分離區(qū)別。</p><p> 假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點(diǎn)檢測,實(shí)際應(yīng)用則采用BP充當(dāng)分類器,并且根據(jù)特征采用多分
110、類器結(jié)構(gòu),解決數(shù)據(jù)多特征問題。同時對于那些不同類而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專家系統(tǒng)方式,對這些具備相似性較高而又不同類進(jìn)行量化可控地判斷。同時對于超出已知范疇特性地數(shù)據(jù),進(jìn)行保存處理,訓(xùn)練出新的神經(jīng)網(wǎng)絡(luò),同時通過人工專家系統(tǒng)進(jìn)行更新。這樣保證在可控范圍能得到更高準(zhǔn)確性。</p><p> 同樣如果能夠有好地方案,能
111、夠明顯獲得已知數(shù)據(jù)特征,并且能夠很好分離相近特征屬性的方案,那將是有很好速度檢測到異常數(shù)據(jù),同時配合專家決策系統(tǒng)能夠使結(jié)果更具實(shí)際地準(zhǔn)確性,而不是單純地數(shù)據(jù)異常準(zhǔn)確性。當(dāng)然這建立在已知數(shù)據(jù)集合有足夠豐富特征。對于未知數(shù)據(jù)特征可以報警,通過人工干預(yù)使系統(tǒng)學(xué)習(xí)到新特征,或者自動控制地方法學(xué)習(xí)。</p><p> 總地來說,使用神經(jīng)網(wǎng)絡(luò)分類,對于相似性比較高,差異集中在局部特征的數(shù)據(jù),可以使用特征映射相關(guān)技術(shù)遺傳算法
112、、啟發(fā)式搜索、特征隨機(jī)選取等得到這些特征差異。對于正常數(shù)據(jù)多特征地問題,特別是正常數(shù)據(jù)有多類數(shù)據(jù)的,可以采用多神經(jīng)網(wǎng)絡(luò)融合,即多神經(jīng)網(wǎng)絡(luò)記錄多特征。</p><p><b> 參考文獻(xiàn)</b></p><p> [1]Hawkins D. Identification of Outliers[M]. London.Chapman and hall. 1980.
113、</p><p> [2]Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. Distance-Based Outlier:Algorithms Applications[J].VLDB.2000.8(3-4):237-253.</p><p> [3]Edwin M. Knorr, Raymod T. Ng. Algorithms
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機(jī)畢業(yè)論文--bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究
- 畢業(yè)論文---bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究
- [原創(chuàng)]計算機(jī)專業(yè)論文——bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究
- 軟件管理畢業(yè)論文--bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究
- 《bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究_畢業(yè)論文》(49頁)doc
- 畢業(yè)設(shè)計--bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究
- 計算機(jī)系畢業(yè)論文網(wǎng)絡(luò)安全
- 計算機(jī)系畢業(yè)論文-photoshop人物處理應(yīng)用
- 計算機(jī)系畢業(yè)論文-photoshop人物處理應(yīng)用
- 計算機(jī)系-畢業(yè)論文信息管理
- 計算機(jī)系平面設(shè)計專業(yè)畢業(yè)論文
- 計算機(jī)系畢業(yè)設(shè)計論文
- 數(shù)學(xué)與計算機(jī)系網(wǎng)站優(yōu)化畢業(yè)論文
- 計算機(jī)系畢業(yè)論文書寫及排版格式
- 計算機(jī)系畢業(yè)論文---招聘信息管理系統(tǒng)
- 計算機(jī)系畢業(yè)論文---學(xué)校園網(wǎng)組建
- 計算機(jī)系統(tǒng)維護(hù)畢業(yè)論文
- 計算機(jī)系畢業(yè)論文--賓館管理系統(tǒng)的設(shè)計與實(shí)現(xiàn)
- 計算機(jī)系統(tǒng)維護(hù)-畢業(yè)論文
- 計算機(jī)系統(tǒng)安裝與維護(hù)畢業(yè)論文
評論
0/150
提交評論