數(shù)據(jù)流概要與數(shù)據(jù)流分析若干關鍵問題研究.pdf_第1頁
已閱讀1頁,還剩94頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、傳感器數(shù)據(jù)處理、金融證券管理、Intemet流量監(jiān)控、Web使用日志及電話呼叫記錄的在線分析等新型應用領域對數(shù)據(jù)的管理與分析提出了新的要求,如直接反映數(shù)據(jù)的本來面目、可以處理連續(xù)查詢、能夠處理異種數(shù)據(jù)、快速響應用戶查詢等,其本質是對數(shù)據(jù)流的管理和分析。數(shù)據(jù)流是連續(xù)的、輸入速率隨時間變化的、有序項的序列,數(shù)據(jù)流上的查詢通常連續(xù)運行,當新數(shù)據(jù)到達時增量式地返回結果,即所謂的長時間運行的、連續(xù)的、持久的查詢。數(shù)據(jù)流及其相關技術已經成為當前數(shù)據(jù)

2、處理領域的研究熱點之一,管理和分析這些連續(xù)數(shù)據(jù)流為傳統(tǒng)的數(shù)據(jù)庫領域帶來許多新的機會和挑戰(zhàn)。 隨著傳感器、數(shù)據(jù)通信、普式計算等相關技術的發(fā)展,工業(yè)領域中以數(shù)據(jù)流方式獲取的數(shù)據(jù)量急劇增加,一些典型工業(yè)應用領域如電力系統(tǒng)對數(shù)據(jù)流處理速度和分析結果精度的要求越來越高。高精度、快速的數(shù)據(jù)流分析與高效的具有自適應性數(shù)據(jù)流管理技術是數(shù)據(jù)流相關技術走向實用化、產業(yè)化的一個重要突破口。 典型的工業(yè)數(shù)據(jù)流管理與分析包括數(shù)據(jù)流采集與預處理、數(shù)

3、據(jù)的特征抽取、數(shù)據(jù)聚集等基本連續(xù)查詢的分析與執(zhí)行、相關性檢測或預測與分類等復雜的分析操作。本文針對上述應用需求展開的主要研究工作及取得的創(chuàng)新性成果概述如下: (1)在數(shù)據(jù)流清洗方面,提出了帶有遺忘因子的 Kalman 濾波預測算法,能夠有效地檢測出未來時刻的異常數(shù)據(jù);提出了一種新穎的數(shù)據(jù)流上的異常數(shù)據(jù)修正方法,應用插值小波根據(jù)連續(xù)異常數(shù)據(jù)數(shù)量的不同,實現(xiàn)了可變插值尺度的異常數(shù)據(jù)修補,能夠自適應修正精度。在實際電力負荷數(shù)據(jù)上的仿真

4、實驗證明這種方法可以在線準確地檢測到異常數(shù)據(jù),并能提供精確的異常數(shù)據(jù)修正。 (2)在流數(shù)據(jù)特征近似抽取方面,對采樣、直方圖、流矩陣不等概行列采樣等概要生成方法進行了深入研究,針對不同概要在某些方面的缺陷提出相應的改進算法,進一步在各種數(shù)據(jù)流概要基礎上,提出一種基于概要的數(shù)據(jù)流管理系統(tǒng)框架,作為此框架的實現(xiàn),設計了一種適用于工業(yè)控制的協(xié)調者.工作者數(shù)據(jù)流聚集模型,基于概要產生可變長數(shù)據(jù)劃分粒度的動態(tài)負載均衡方法,解決分布式環(huán)境下

5、工業(yè)數(shù)據(jù)流的聚集處理問題,通過對不同分布仿真數(shù)據(jù)的實驗分析證明提出的模型能夠獲得較高的加速比。 (3)在高維數(shù)據(jù)流相關性分析方面,將統(tǒng)計理論中經典的典型相關性分析方法(cCA)應用于數(shù)據(jù)流領域,從理論上證明了基于不等概采樣的低階近似技術應用于高維數(shù)據(jù)流復雜計算的可行性,提出適于數(shù)據(jù)流處理的一過性(one-pass scanning)多變量相關性分析的增量算法StreamCCA,理論分析和合成及真實數(shù)據(jù)上的實驗證明StreamCC

6、A能夠在線計算多維數(shù)據(jù)流之間的典型相關系數(shù)。 (4)在數(shù)據(jù)流值預測方面,提出帶有“尺度導引”的插值小波算法,在確定性預測信息的基礎上,實現(xiàn)可變預測時間間隔的數(shù)據(jù)流值預測。構造不連續(xù)測量值的特殊卡爾曼濾波模型和誤差預測算法,體現(xiàn)時間序列數(shù)據(jù)流的動態(tài)變化,滿足高速數(shù)據(jù)流只能一遍掃描的限制。為了在計算資源受限的前提下,協(xié)調預測精度與計算復雜度,根據(jù)流值變化的快慢程度自適應地確定預測步長:在流值平穩(wěn)時縮短預測步長提高預測精度,在流值快

7、速變化時使用較長的預測步長降低計算代價,同時仍然能夠保證要求的預測精度,形成最佳預測點軌跡。 (5)多數(shù)分類方法基于數(shù)據(jù)服從靜態(tài)分布的假設,然而真實世界中數(shù)據(jù)的采集通常跨越一段時間,從幾秒到幾年,如果忽略潛在概念的變化(即概念漂移)將會嚴重降低分類模式的預測性能。提出一種在線分類系統(tǒng)StreamSPRINT,可以動態(tài)調整訓練窗口的尺寸和分類模型重建期間允許接受的新樣本的個數(shù),以適應當前概念漂移發(fā)生的速度;可以對每個數(shù)據(jù)流樣本至多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論