《金融智能》7_第1頁
已閱讀1頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)預(yù)處理,,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理技術(shù)主要是接受并理解用戶的挖掘要求,確定挖掘任務(wù),抽取與挖掘任務(wù)相關(guān)的數(shù)據(jù)源,根據(jù)領(lǐng)域知識中的約束規(guī)則對數(shù)據(jù)進(jìn)行合法性檢查,通過清理和規(guī)約等操作,生成挖掘算法所需要的目標(biāo)數(shù)據(jù),他匯集了原始數(shù)據(jù)中與數(shù)據(jù)挖掘任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是最原始的知識模板。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理研究內(nèi)容數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的一個重要步驟,尤其是在對包含有噪聲、不完整,甚至不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時

2、,更需要進(jìn)行數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘的質(zhì)量,并最終達(dá)到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理的重要性 1)數(shù)據(jù)預(yù)處理可以去掉數(shù)據(jù)中的噪聲 (eg.領(lǐng)導(dǎo)講話)2)糾正不正確的屬性值(人機(jī)輸入時錯誤 )3)對于不一致的數(shù)據(jù)進(jìn)行清理(填寫缺失值、光滑噪聲數(shù)據(jù)、識別刪除離群點(diǎn))4)數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)挖掘的效率(壓縮數(shù)據(jù)集不損害數(shù)據(jù)挖掘結(jié)果),數(shù)據(jù)預(yù)處理任務(wù),一個全面的金融智能解決方案必須通過數(shù)據(jù)挖掘

3、解決數(shù)據(jù)一致性與集成化問題,能夠從所有傳統(tǒng)環(huán)境與平臺中采集數(shù)據(jù),并對其數(shù)據(jù)進(jìn)行高效的轉(zhuǎn)換。這個解決方案就是ETL。,數(shù)據(jù)預(yù)處理任務(wù),通常數(shù)據(jù)預(yù)處理的過程主要包括以下幾個方面任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)歸約,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)清洗數(shù)據(jù)清洗是要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景上的白噪聲,考慮時間順序和數(shù)據(jù)變化等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的

4、轉(zhuǎn)換。數(shù)據(jù)清洗分為有監(jiān)督(領(lǐng)域?qū)<抑笇?dǎo)下)和無監(jiān)督(樣本數(shù)據(jù)訓(xùn)練算法)兩類。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)集成數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及不一致數(shù)據(jù)的處理問題。 由于數(shù)據(jù)可能來自多個實(shí)際系統(tǒng),所以存在異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問題。另外,多個數(shù)據(jù)源的數(shù)據(jù)之間,還存在許多不一致的地方,如命名、結(jié)構(gòu)、單位和含義等。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)變換數(shù)據(jù)變換主要是找到

5、數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、切換、旋轉(zhuǎn)和投影等操作。(eg. 2e+10; 出生年月&年齡 vs 孩子數(shù)量&家庭成員數(shù)),數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)歸約數(shù)據(jù)歸約是在對挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)清洗方法現(xiàn)實(shí)世界的數(shù)據(jù)常常是有噪聲、不

6、完全的和不一致的。數(shù)據(jù)清洗過程通過填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù)。,數(shù)據(jù)清洗方法,遺漏數(shù)據(jù)處理如果在分析數(shù)據(jù)時,發(fā)現(xiàn)有多個記錄中的屬性值為空,可以采用以下方法進(jìn)行處理: ① 忽略該記錄(eg.出勤) ② 手工填補(bǔ)遺漏值 ③ 利用默認(rèn)值填補(bǔ)遺漏值 ④ 利用均值填補(bǔ)遺漏值(eg.考試) ⑤ 利用同類別均值填補(bǔ)遺漏值 ⑥ 利用最可能的值填補(bǔ)遺漏值(回歸、決策樹等預(yù)測),數(shù)據(jù)清洗方法,噪聲數(shù)據(jù)處理

7、噪聲是指被測變量的一個隨機(jī)錯誤和變化: ① Bin方法。通過利用相應(yīng)被平滑數(shù)據(jù)點(diǎn)的周圍點(diǎn),對一組排序數(shù)據(jù)進(jìn)行平滑 ② 聚類方法(通過聚類分析可以幫助發(fā)現(xiàn)異常數(shù)據(jù)) ③ 人機(jī)結(jié)合檢查方法 ④ 回歸方法(利用擬合函數(shù)對數(shù)據(jù)進(jìn)行平滑),數(shù)據(jù)清洗方法,① Bin方法,數(shù)據(jù)清洗方法,不一致數(shù)據(jù)處理數(shù)據(jù)庫中經(jīng)常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致,其中一些數(shù)據(jù)的不一致可以利用他們與外部的關(guān)聯(lián)手工加以解決。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)集成方法數(shù)據(jù)挖掘任務(wù)常

8、常涉及數(shù)據(jù)集成操作,即將來自多個數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫、數(shù)據(jù)立方(data cubes)、普通文件等,結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。,數(shù)據(jù)集成方法,模式集成問題如何使來自多個數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體相互匹配,涉及到實(shí)體識別問題(如何確定一個數(shù)據(jù)庫中的customer_id與另一個數(shù)據(jù)庫中的cust_number表示同一實(shí)體?元數(shù)據(jù)可以幫助避免發(fā)生錯誤),數(shù)據(jù)集成方法,冗余問題若一個

9、屬性可以從其他屬性中推演出來,那么這個屬性就是冗余屬性;屬性命名不一致也會導(dǎo)致集成后數(shù)據(jù)集出現(xiàn)不一致數(shù)據(jù)值沖突檢測與消除(來自不同數(shù)據(jù)源的屬性值可能不同,eg.比例尺度,貨幣單位),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)轉(zhuǎn)換方法所謂數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸已構(gòu)成一個適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包含以下處理內(nèi)容。 1)平滑處理。 2)合計處理。 3)數(shù)據(jù)泛化處理(Generali

10、zation) 4)規(guī)格化。 5)屬性構(gòu)造。,數(shù)據(jù)轉(zhuǎn)換方法,平滑處理該過程幫助除去數(shù)據(jù)中的噪聲,如Bin方法、聚類方法、回歸方法等合計處理對數(shù)據(jù)進(jìn)行總結(jié)或合計操作(eg.從每天銷售額獲得每月或每年銷售額)泛化處理泛化處理是用更抽象的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象(eg.年齡屬性可以映射到年輕、中年、老年),數(shù)據(jù)轉(zhuǎn)換方法,規(guī)格化將有關(guān)屬性數(shù)據(jù)按照比例投射到特定小范圍之中(eg.將

11、工資收入屬性值映射到0.0~1.0)屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)挖掘過程(eg. Y=aX1+bX2+cX3),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)歸約方法數(shù)據(jù)規(guī)約技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。,數(shù)據(jù)歸約方法,數(shù)據(jù)立方合計這類聚集操作作用于數(shù)據(jù)立方中的數(shù)據(jù),對該

12、數(shù)據(jù)進(jìn)行處理。,數(shù)據(jù)歸約方法,維數(shù)歸約檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維。 (eg.預(yù)測是否購買基金的規(guī)則時電話號碼可能與挖掘任務(wù)無關(guān))通常使用屬性子集選擇方法(Attribute Subset Selection),目標(biāo)就是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來的數(shù)據(jù)集的概率分布。方法有逐步添加方法,每次選擇一個當(dāng)前最優(yōu)屬性(收入、年齡、職業(yè)等)逐步消減方法,每次從屬性子集選擇當(dāng)前最差屬性除去(身份

13、證、身高、性別等)決策樹歸納法,對初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得初始決策樹,沒有出現(xiàn)在決策樹的均為無關(guān)屬性,數(shù)據(jù)歸約方法,數(shù)據(jù)壓縮主要用于監(jiān)測和消除無關(guān)、弱相關(guān)、或冗余的屬性,并使用編碼機(jī)制壓縮數(shù)據(jù)集。小波分析,是一種線性信號處理技術(shù),該技術(shù)方法可以將一個數(shù)據(jù)向量D轉(zhuǎn)換為另一個數(shù)據(jù)向量D’,兩個向量具有相同長度。但是后者可以舍棄其中一些小波相關(guān)系數(shù)。主因素分析,利用其進(jìn)行數(shù)據(jù)壓縮時,假設(shè)數(shù)據(jù)由N個數(shù)據(jù)行組成,有K個維度。PCA從

14、K個維度中尋找c個共軛向量,從而實(shí)現(xiàn)對初始數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)壓縮。,數(shù)據(jù)歸約方法,離散化和概念層次樹生成離散化和概念分層將屬性的原始值用區(qū)間值或較高層的概念替換。概念分層允許挖掘多個抽象層上的數(shù)據(jù),是數(shù)據(jù)挖掘一種強(qiáng)有力的工具。,,,,,,,,,,,青年,中年,壯年,18 …,25,26 …,35,36 …,55,數(shù)據(jù)預(yù)處理方法,用于Web挖掘的預(yù)處理由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)

15、是雜亂的,Web使用挖掘預(yù)處理是在Web使用挖掘前,對Web日志所記錄的數(shù)據(jù)進(jìn)行清理、過濾以及重新組合過程。Web使用預(yù)處理的目的是剔除日志中對挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的保存形式。,用于Web挖掘的預(yù)處理,使用預(yù)處理Web日志文件清楚地記錄了站點(diǎn)訪問者的瀏覽行為,記錄了每一次網(wǎng)頁請求信息。它是使用挖掘的最主要數(shù)據(jù)來源,絕大多數(shù)Web使用挖掘都是直接利用Web日志來進(jìn)行。,日志文件,數(shù)據(jù)凈化,用戶

16、會話識別,瀏覽頁識別,路徑補(bǔ)充,服務(wù)器會話文件,路徑補(bǔ)充,事務(wù)文件,使用統(tǒng)計,站點(diǎn)結(jié)構(gòu)和內(nèi)容,用于Web挖掘的預(yù)處理,結(jié)構(gòu)預(yù)處理結(jié)構(gòu)挖掘的預(yù)處理主要是通過Web站點(diǎn)結(jié)構(gòu)及網(wǎng)頁特征信息的抽取和過濾,為結(jié)構(gòu)挖掘準(zhǔn)備數(shù)據(jù)。,Web,URL集合,URL處理,地址路徑處理,路徑補(bǔ)充,數(shù)據(jù)庫,網(wǎng)頁分析,URL提取,超鏈過濾,輸入初 始URL,讀取,分配URL,用于Web挖掘的預(yù)處理,內(nèi)容預(yù)處理Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。多媒體挖掘處

17、于起步階段,仍停留在從多媒體的屬性進(jìn)行挖掘,對于文本挖掘的預(yù)處理,通過以下幾個步驟完成,站點(diǎn)文件,分類算法,文本分類,分詞處理,文本特征表示,特征提取,對元數(shù)據(jù)(特征項)進(jìn)行量化,有意義地抽取關(guān)鍵詞項的相關(guān)信息,數(shù)據(jù)預(yù)處理工具,評價ETL工具的標(biāo)準(zhǔn)評價ETL工具的標(biāo)準(zhǔn)可以從對平臺的支持(Windows,Linux,UNIX)、對數(shù)據(jù)源的支持(Excel,SQL Server,Text,XML)、數(shù)據(jù)轉(zhuǎn)換功能(字段映射、拆分、行列變換等

18、)、管理和調(diào)度功能、對元數(shù)據(jù)管理(映射規(guī)則、轉(zhuǎn)換規(guī)則、加載策略都屬于元數(shù)據(jù)范疇)和集成和開放性等幾個方面考慮。,數(shù)據(jù)預(yù)處理工具,主流的ETL工具 目前的ETL工具在一定范圍內(nèi)解決了數(shù)據(jù)的抽取和轉(zhuǎn)換。但這些工具基本都不能自動完成數(shù)據(jù)的抽取,用戶還需利用這些工具編寫適當(dāng)?shù)霓D(zhuǎn)換程序,對用戶的技術(shù)水平要求較高。Oracle Warehouse BuilderInformatica PowerCenterMicrosoft SQL Se

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論