面向維數(shù)約簡和模式分類的增減量學(xué)習(xí)研究.pdf_第1頁
已閱讀1頁,還剩176頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、在大數(shù)據(jù)時(shí)代,海量高維在線數(shù)據(jù)對機(jī)器學(xué)習(xí)提出了新的需求和前所未有的挑戰(zhàn)。從日益增加的數(shù)據(jù)中快速而有效的學(xué)習(xí)新知識成為一個(gè)技術(shù)難點(diǎn)。傳統(tǒng)的批量機(jī)器學(xué)習(xí)算法面對新數(shù)據(jù)時(shí),需要拋棄已有的學(xué)習(xí)結(jié)果,重新訓(xùn)練和重新學(xué)習(xí)。隨著數(shù)據(jù)規(guī)模的不斷增加,批量算法對時(shí)間和空間的需求也快速增長,最終導(dǎo)致系統(tǒng)的學(xué)習(xí)速度滯后于數(shù)據(jù)的更新速度。因此,增量學(xué)習(xí)應(yīng)運(yùn)而生,旨在從新數(shù)據(jù)中漸進(jìn)式的更新知識,同時(shí)修正和加強(qiáng)已有知識。此外,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)還具有信息繁雜、真假

2、難辨、數(shù)據(jù)價(jià)值密度低的特性,如何從已學(xué)習(xí)的知識中快速而有效的“去學(xué)習(xí)”過時(shí)無效或者錯(cuò)誤的數(shù)據(jù)是機(jī)器學(xué)習(xí)面對的另一個(gè)技術(shù)難題。減量學(xué)習(xí)是增量學(xué)習(xí)的逆過程,其目的是微調(diào)式的更新知識,快速修正已有知識中無效或者錯(cuò)誤的部分。
  本文從機(jī)器學(xué)習(xí)中的兩個(gè)核心問題,即維數(shù)約簡和模式分類出發(fā),針對增減量學(xué)習(xí)展開了深入的探討和研究。主要的工作和貢獻(xiàn)如下:
  1.提出了特征值分解雙向更新算法。該方法可以在任意增加和刪除樣本后,快速更新數(shù)據(jù)協(xié)

3、方差矩陣的特征值分解,避免了傳統(tǒng)基于奇異值分解的方法因?yàn)槿鄙儆矣移娈愊蛄繉?dǎo)致向下更新為NP-Hard的問題。特征值分解雙向更新算法本質(zhì)是將高維數(shù)據(jù)空間中協(xié)方差矩陣的增減量問題轉(zhuǎn)為到降維子空間對應(yīng)的行空間中自相關(guān)矩陣的增減量問題。在序列化使用中,當(dāng)全數(shù)據(jù)矩陣滿足低秩偏移結(jié)構(gòu)時(shí),特征值分解雙向更新算法在理論上具有最優(yōu)性。然后,本文基于特征值分解雙向更新提出了增量、減量和增減量主成分分析算法,證明了添加或者刪除樣本引起均值變化的影響可以通過向

4、中心化數(shù)據(jù)中額外添加或刪除幾個(gè)均值修正樣本補(bǔ)償。所提出的增減量主成分分析是目前第一種可同時(shí)添加和刪除新舊樣本的在線子空間學(xué)習(xí)算法。實(shí)驗(yàn)表明,所提出的減量主成分分析算法估計(jì)主成分的準(zhǔn)確度優(yōu)于傳統(tǒng)方法;所提出的增減量主成分分析算法的估計(jì)精度和計(jì)算效率要明顯優(yōu)于兩步使用傳統(tǒng)增量和減量方法的實(shí)現(xiàn)方式。
  2.提出了基于廣義奇異值分解的局部鑒別子空間嵌入算法及其增量形式。本文采用廣義奇異值分解來解決局部鑒別子空間嵌入的廣義特征值問題。本文

5、算法不需要類內(nèi)和類間鄰接散度矩陣是非奇異的,并且在全空間中搜索最佳嵌入子空間,因而可充分挖掘隱藏在數(shù)據(jù)內(nèi)的局部鑒別信息。所提出的增量算法主要是通過使用奇異值分解加性修正算法解決廣義奇異值分解的增量更新問題而實(shí)現(xiàn)的。實(shí)驗(yàn)表明,所提出算法的性能要優(yōu)于原始的局部鑒別子空間嵌入算法和所比較的傳統(tǒng)維數(shù)約簡算法;同時(shí),所提出的增量算法的計(jì)算效率要遠(yuǎn)高于批量算法。
  3.提出了三種基于廣義逆的增減量極限學(xué)習(xí)機(jī),即節(jié)點(diǎn)增量、樣本增量和樣本減量極

6、限學(xué)習(xí)機(jī)。它們通過隱層輸出矩陣廣義逆的向上更新和向下更新解決了極限學(xué)習(xí)機(jī)添加新隱節(jié)點(diǎn)、學(xué)習(xí)新樣本和去學(xué)習(xí)舊樣本后的更新問題。所提出的基于廣義逆的增減量算法可以得到與批量算法相同的結(jié)果,因而保持了極限學(xué)習(xí)機(jī)的最優(yōu)性、最小范數(shù)和最佳泛化能力。此外,樣本增量極限學(xué)習(xí)機(jī)還解決了傳統(tǒng)在線序列極限學(xué)習(xí)機(jī)無法自啟動和數(shù)值不穩(wěn)定的問題。據(jù)我們所知,樣本減量極限學(xué)習(xí)機(jī)是極限學(xué)習(xí)機(jī)的第一個(gè)減量實(shí)現(xiàn)。實(shí)驗(yàn)表明,所提出算法的回歸、分類性能和計(jì)算穩(wěn)定性都優(yōu)于傳統(tǒng)

7、算法。
  4.提出了基于特征空間分裂的異常檢測算法。該算法的檢測依據(jù)是異常樣本對主導(dǎo)主成分方向的影響要遠(yuǎn)高于正常樣本。該算法將減量主成分分析應(yīng)用到基于角度的異常檢測,并在它們之間建立了一種天然的聯(lián)系,即利用主成分減量更新時(shí)旋轉(zhuǎn)矩陣的對角線元素反映角度異常。該算法是基于在線過采樣主成分分析的異常檢測算法的改進(jìn)。特征空間分裂算法解決了在線過采樣主成分分析算法中主方向的估計(jì)誤差較大的問題;多主成分策略在不影響對正常樣本的判斷同時(shí)提高了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論