時(shí)間序列數(shù)據(jù)轉(zhuǎn)換及分類算法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩98頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、時(shí)間序列(Tune Series)是數(shù)據(jù)挖掘領(lǐng)域中的一類重要數(shù)據(jù)對(duì)象,時(shí)間序列分類是時(shí)間序列數(shù)據(jù)挖掘中的重要任務(wù)之一.不同于時(shí)間序列分析中常用的算法與問(wèn)題,時(shí)間序列分類是要把整個(gè)時(shí)間序列當(dāng)作輸入,其目的是要賦予這個(gè)序列某個(gè)離散標(biāo)記.序列數(shù)據(jù)相對(duì)于截面數(shù)據(jù)最主要的區(qū)別在于序列包含了復(fù)雜的時(shí)域特征,這使時(shí)間序列分類問(wèn)題較一般分類問(wèn)題困難得多.時(shí)間序列數(shù)據(jù)通常不等長(zhǎng),導(dǎo)致一般的分類算法不能直接應(yīng)用.即使是等長(zhǎng)的時(shí)間序列,由于要考慮序列數(shù)據(jù)在時(shí)

2、間上的動(dòng)態(tài)特征,不同序列在相同位置的數(shù)值很難直接比較,一般的分類算法依然還是不適合直接應(yīng)用.為了解決這些難點(diǎn),通常有兩種方法:第一種是基于距離的方法,這類方法定義合適的距離度量,使得在此度量意義下相近的序列有相同的分類標(biāo)簽.動(dòng)態(tài)時(shí)間彎曲(Dynamic Time Warping,DTW)算法是基于距離方法的代表;第二種是基于模型的方法,這類方法先對(duì)時(shí)間序列進(jìn)行建模(利用序列中前后數(shù)據(jù)的依賴關(guān)系建立模型),再用模型參數(shù)組成等長(zhǎng)向量來(lái)表示每

3、條序列,然后用傳統(tǒng)的分類算法進(jìn)行訓(xùn)練和分類. 本文對(duì)不等長(zhǎng)多維時(shí)間序列數(shù)據(jù)的分類問(wèn)題,采用的研究思路是先對(duì)序列數(shù)據(jù)進(jìn)行符號(hào)化處理,將多維時(shí)間序列轉(zhuǎn)換為符號(hào)序列;再基于模型對(duì)時(shí)間序列實(shí)現(xiàn)動(dòng)態(tài)聚類,實(shí)現(xiàn)對(duì)序列數(shù)據(jù)的轉(zhuǎn)換,將不等長(zhǎng)的符號(hào)序列用等長(zhǎng)的向量表示,使得傳統(tǒng)的面對(duì)于截面數(shù)據(jù)的分類算法可以方便的應(yīng)用到序列分類中.此外,本文深入分析了基于距離和基于模型這兩類序列分類算法,分別在不同的合成數(shù)據(jù)集和實(shí)際數(shù)據(jù)集上進(jìn)行比較,并取得很有意義

4、的結(jié)果.在時(shí)間序列的符號(hào)化、序列轉(zhuǎn)換方法、序列分類算法比較三個(gè)研究方面的主要貢獻(xiàn)如下: 在多維時(shí)間序列的符號(hào)化研究中,本文采用聚類融合算法對(duì)截面數(shù)據(jù)進(jìn)行聚類,將每個(gè)截面的數(shù)據(jù)用聚類標(biāo)識(shí)來(lái)表示,以此得到穩(wěn)定的符號(hào)化結(jié)果.本文提出了多種面對(duì)混合型數(shù)據(jù)的聚類融合算法,其中基于Boosting的自適應(yīng)聚類融合算法(Boosting-based Adaptive Cluster Ensembles,BACE)在聚類成員生成階段采用了新的訓(xùn)

5、練集抽樣策略.在共識(shí)函數(shù)設(shè)計(jì)方面采用了基于互信息的投票機(jī)制,從而構(gòu)建了一種新的聚類融合算法,為聚類融合算法的研究做出了貢獻(xiàn),同時(shí)也為多維時(shí)間序列的符號(hào)化研究提供了新的有效方法.實(shí)驗(yàn)表明,本文提出的BACE算法具有較高的魯棒性和穩(wěn)定性. 在時(shí)間序列數(shù)據(jù)轉(zhuǎn)換研究中,在序列符號(hào)化的基礎(chǔ)上,本文提出了一種新的基于模型的序列數(shù)據(jù)轉(zhuǎn)換方法,該方法利用Markov鏈模型,結(jié)合K-L散度(Kullback-Leibler散度)實(shí)現(xiàn)了時(shí)間序列的數(shù)

6、據(jù)轉(zhuǎn)換,并充分考慮了時(shí)間序列挖掘問(wèn)題中重要的動(dòng)態(tài)特征,將不等長(zhǎng)的時(shí)間序列轉(zhuǎn)換為等長(zhǎng)的向量,為面向截面數(shù)據(jù)的分類算法在序列數(shù)據(jù)分類問(wèn)題中的應(yīng)用提供了條件.本文對(duì)所采用的Markov鏈模型的魯棒性做了深入的理論分析.最后實(shí)驗(yàn)還發(fā)現(xiàn),用本文提出的序列數(shù)據(jù)轉(zhuǎn)換方法進(jìn)行數(shù)據(jù)轉(zhuǎn)換后,最大似然法(MaximumIAkelihood Estimation,MLE)在電信企業(yè)客戶流失問(wèn)題的研究中表現(xiàn)出較強(qiáng)的魯棒性和有效性. 在序列分類算法的比較中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論