版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 數(shù)據(jù)挖掘教程</b></p><p><b> 塞思保羅</b></p><p><b> 杰米 麥克倫南</b></p><p><b> 唐昭輝</b></p><p><b> 斯科特 歐俉桑</
2、b></p><p> 摘要:微軟的SQL Server ? 2005年提供了一個綜合完整的環(huán)境,用于創(chuàng)建和從事數(shù)據(jù)挖掘模型工作。本教程使用如下四個實例:目標(biāo)郵購,數(shù)據(jù)預(yù)測,購物籃,序列簇用來演示闡述如何使用挖掘模型算法,挖掘模型瀏覽器,和數(shù)據(jù)挖掘工具,這些是包含在本次發(fā)布的SQL Server中。</p><p> 在本文件所載的信息,代表了當(dāng)前微軟公司對于出版日期的討論的看法
3、。因為Microsoft必須響應(yīng)不斷變化的市場條件,它不應(yīng)被解釋為是一種代表微軟的承諾,微軟和Microsoft不能保證出版日期后提出的任何資料的準(zhǔn)確性。</p><p> 本白皮書僅供參考,對于本文件中的資訊,Microsoft不作任何擔(dān)保,明示或暗指。</p><p> 遵守所有適用的版權(quán)法是用戶的責(zé)任。在沒有版權(quán)的情況下,未經(jīng)微軟公司明確的書面許可,不得以任何形式或以任何方式(電
4、子,機(jī)械,影印,錄音或其他方式)或為任何目的而復(fù)制,儲存或引入檢索系統(tǒng),或傳輸本文件任何一部分。</p><p> 本文件中可能涉及到微軟的專利,專利申請,商標(biāo),版權(quán)或其他知識產(chǎn)權(quán)事項。除明文規(guī)定外的任何書面許可協(xié)議,微軟提供的這份文件沒有給你任何許可這些專利,商標(biāo),版權(quán)或其他知識產(chǎn)權(quán)。</p><p> @ 2003年微軟公司。保留所有權(quán)利。</p><p>
5、 微軟既是一個注冊商標(biāo)又是微軟公司在美國和/或其他國家的商標(biāo)。</p><p> 文中提到的公司和產(chǎn)品的名字可能是它們各自所有者的商標(biāo)。</p><p><b> 介紹</b></p><p> 數(shù)據(jù)挖掘教程的目的是引導(dǎo)您通過微軟SQL Server 2005創(chuàng)建數(shù)據(jù)挖掘模型 。該數(shù)據(jù)挖掘算法和工具,在SQL Server 2005可以
6、很容易地建立一個全面的解決方案的各種項目,包括購物籃分析,預(yù)測分析,和郵購分析。對這些解決方案的描述在教程中有更詳細(xì)的解釋。</p><p> SQL Server 2005最明顯的部分是用來創(chuàng)建和處理數(shù)據(jù)挖掘模型的工作室。在線分析處理( OLAP )和數(shù)據(jù)挖掘工具被統(tǒng)一為兩個工作環(huán)境:商業(yè)智能開發(fā)工作室和SQL Server 管理工作室。通過商業(yè)智能開發(fā)工作室,您可以在與服務(wù)器斷開連接的情況下建立一個服務(wù)項目
7、分析。當(dāng)項目已經(jīng)準(zhǔn)備就緒,您可以發(fā)布到服務(wù)器上。您也可以直接面向服務(wù)器工作。SQL Server 管理工作室的主要職能是管理服務(wù)器。之后將有針對每一個環(huán)境的詳細(xì)說明。欲了解更多關(guān)于從兩個環(huán)境中選擇的信息,請參看SQL Server聯(lián)機(jī)叢書中的“在SQL Server 工作室和商業(yè)智能開發(fā)工作室中選擇”。</p><p> 所有的數(shù)據(jù)挖掘工具中存在的數(shù)據(jù)挖掘編輯器。使用編輯器,您可以管理挖掘模型,創(chuàng)造新的模式,以
8、期車型,比較模型,并建立預(yù)測的基礎(chǔ)上現(xiàn)有的模式。 </p><p> 當(dāng)您建立一個挖掘模型后,你會想要探索它,尋找有趣的模式和規(guī)則。編輯器中每個挖掘模型視圖都被定制為由具體算法創(chuàng)建的探索模型。欲了解更多關(guān)于視圖的信息,請參看SQL Server聯(lián)機(jī)叢書中的“查看數(shù)據(jù)挖掘模型”。</p><p> 您的項目往往會包含多個挖掘模型,所以才能使用的模式創(chuàng)建的預(yù)測,你要能夠確定哪些模式是最準(zhǔn)確
9、的。出于這個原因,編輯包含一個模型比較工具挖掘精度的圖表標(biāo)簽。使用此工具,您可以比較準(zhǔn)確的預(yù)測模型和您確定最佳模式。 </p><p> 為了建立數(shù)據(jù)預(yù)期,你將使用一種 DME語言,DMX擴(kuò)展了傳統(tǒng)的SQL語法,包含了一些創(chuàng)建修改和建立數(shù)據(jù)預(yù)期的命令,關(guān)于DMX的詳細(xì)信息,請參考SQL BOL中的 “Data Mining Extensions (DMX) Reference”章節(jié)。因為建立一個數(shù)據(jù)預(yù)期可能比較
10、復(fù)雜,所以數(shù)據(jù)挖掘編輯器包含了一個工具叫做 “Prediction Query Builder”, 該工具可以讓你在一個圖形化的界面下編輯DMX查詢語句,你也可以在該工具中可以查看自動生成的DMX語句。</p><p> 了解了前面介紹的實現(xiàn)數(shù)據(jù)挖掘的工具之外,同等重要的是了解數(shù)據(jù)挖掘模型的結(jié)構(gòu)本身,建立一個數(shù)據(jù)模型的關(guān)鍵是數(shù)據(jù)挖掘算法,該算法在你操作的數(shù)據(jù)中尋找我們需要的部分,并且轉(zhuǎn)換這些數(shù)據(jù)成為一個可操作的
11、數(shù)據(jù)模型,SQL2005 包含9中數(shù)據(jù)模型算法:</p><p><b> 決策樹</b></p><p><b> 簇</b></p><p><b> 傳統(tǒng)貝葉斯</b></p><p><b> 序列簇</b></p><
12、p><b> 時間系</b></p><p><b> 聯(lián)結(jié)</b></p><p><b> 神經(jīng)網(wǎng)絡(luò)</b></p><p><b> 線性回歸</b></p><p><b> 邏輯回歸</b></p>
13、;<p> 組合的使用這9種數(shù)據(jù)算法,你能夠創(chuàng)建適應(yīng)大部分商業(yè)邏輯的數(shù)據(jù)挖掘解決方案,本教程將詳細(xì)的介紹這些算法。 </p><p> 一些很重要的建立數(shù)據(jù)挖掘解決方案的步驟是用來整理準(zhǔn)備那些用于建立數(shù)據(jù)模型的數(shù)據(jù),SQL2005包含一個DTS的工作環(huán)境以及一些DTS的工具用于清理驗證準(zhǔn)備數(shù)據(jù),關(guān)于DTS的更多信息請查看SQL BOL中的"DTS Data Mining Tasks a
14、nd Transformations"章節(jié)。</p><p> 為了闡述SQL2005中的數(shù)據(jù)挖掘特性,本教程使用了一個新的示例數(shù)據(jù)庫AdventureWorksDW ,該數(shù)據(jù)庫包含在 SQL2005中它提供OLAP以及數(shù)據(jù)挖掘的一些實例數(shù)據(jù)。為了使用這個數(shù)據(jù)庫你需要在安裝SQL的時候選擇它。</p><p> Adventure 數(shù)據(jù)庫</p><p&g
15、t; AdventureWorksDW 數(shù)據(jù)庫是基于一個虛構(gòu)的自行車制造公司而建立,公司的名稱叫做 “Adventure Works Cycles”(簡稱AW公司)。AW公司生產(chǎn)并向北美,歐洲和亞洲的商業(yè)市場銷售金屬和復(fù)合材料的自行車,主要的工作都在華盛頓Bothell完成,那里擁有 500 員工,以及一些地區(qū)銷售部門遍及各地。 </p><p> AW公司通過INTERNET批發(fā)和零售他們的產(chǎn)品,本教程中的
16、數(shù)據(jù)模型實例需要你使用這些網(wǎng)絡(luò)銷售數(shù)據(jù)作為數(shù)據(jù)模型。 </p><p> 關(guān)于AW公司數(shù)據(jù)庫的更多信息,請參考SQL Server聯(lián)機(jī)叢書中的如下章節(jié):"Sample Databases and Business Scenarios"。</p><p><b> 數(shù)據(jù)庫詳細(xì)信息</b></p><p> 網(wǎng)絡(luò)銷售數(shù)據(jù)構(gòu)
17、架包含9242個客戶的信息,這些客戶分布在6個國家,并被合并為3個區(qū)域:</p><p><b> 南美 (83%)</b></p><p><b> 歐洲 (12%)</b></p><p><b> 澳大利亞 (7%)</b></p><p> 該數(shù)據(jù)庫包含三個財政
18、年度的數(shù)據(jù): 2002年, 2003年和2004年。</p><p> 數(shù)據(jù)庫中的產(chǎn)品根據(jù)子類別,型號和產(chǎn)品來分類。</p><p><b> 商業(yè)智能開發(fā)工作室</b></p><p> 商業(yè)智能開發(fā)工作室是一套用于創(chuàng)建商務(wù)智能項目的工具。由于商業(yè)智能開發(fā)工作室是創(chuàng)建于IDE環(huán)境中的,在該環(huán)境中,你可以在脫機(jī)狀態(tài)下創(chuàng)建一個完整地解決方案
19、。你可以想改多少數(shù)據(jù)挖掘?qū)ο缶透亩嗌?,但是在你發(fā)布該項目前,這些改變將不會反映在服務(wù)器上。</p><p> 在商業(yè)智能開發(fā)工作室下工作是有益的,理由如下:</p><p> 您具有強(qiáng)大的可定制的工具來配置商業(yè)智能開發(fā)工作室以滿足您的需要。</p><p> 你可以將各種數(shù)據(jù)挖掘技術(shù)與SSAS項目集成,在同一個工具中完成一個全面的解決方案.</p>
20、<p> 強(qiáng)大的源碼以及版本控制支持使你的團(tuán)隊可以協(xié)作的建立一個解決方案.</p><p> 建立一個SSAS項目是所有商業(yè)智能項目的基礎(chǔ),一個SSAS項目獨立的建立一個SSAS數(shù)據(jù)庫用于集成多種技術(shù),這個數(shù)據(jù)庫作為數(shù)據(jù)挖掘模型以及OLAP等技術(shù)的基礎(chǔ)。你可以使用商業(yè)智能 建立和修改一個SSAS項目并部署這個項目到一個或多個SSAS服務(wù)</p><p> 如果你在開發(fā)一
21、個SSAS項目你也可以使用商業(yè)智能開發(fā)工作室直接連接數(shù)據(jù)庫,這樣你所作的改動可以立刻影響到數(shù)據(jù)庫中。</p><p> SQL Server 管理工作室</p><p> SQL Server 管理工作室是一個與微軟SQL Server協(xié)作的管理和腳本工具的集合。這個工作室與商業(yè)智能開發(fā)工作室的不同在于,你是在一個聯(lián)機(jī)的環(huán)境下工作,一旦你保存工作,你的行為就被傳送到服務(wù)器上。</
22、p><p> 在數(shù)據(jù)被清理并為數(shù)據(jù)挖掘準(zhǔn)備好后,大多數(shù)和創(chuàng)建蘇局挖掘解決方案相關(guān)聯(lián)的工作都在商業(yè)智能開發(fā)工作室中工作。通過使用商業(yè)智能開發(fā)工作室,你可以利用迭代過程確定的給定情況下的最佳模式來發(fā)布和測試數(shù)據(jù)挖掘解決方案。一旦開發(fā)商對解決方案滿意,就可以將其發(fā)布到分析服務(wù)服務(wù)器。</p><p> 從這點來看,重點從SQL Server管理工作室的開發(fā)轉(zhuǎn)移到了維護(hù)和應(yīng)用。在SQL Serve
23、r管理工作室中,您可以管理您的數(shù)據(jù)庫和執(zhí)行一些在商業(yè)智能開發(fā)工作室中的相同的職能,比如在挖掘模式中查看、創(chuàng)建預(yù)測。</p><p><b> 數(shù)據(jù)轉(zhuǎn)換服務(wù)</b></p><p> 在SQL Server 2005中數(shù)據(jù)轉(zhuǎn)換服務(wù)( DTS )包括抽取,轉(zhuǎn)換和加載(簡稱ETL )工具 。這些工具可用于執(zhí)行一些數(shù)據(jù)挖掘中最重要的任務(wù),為數(shù)據(jù)模型的建立清理和準(zhǔn)備數(shù)據(jù)。在
24、數(shù)據(jù)挖掘,您通??梢詧?zhí)行重復(fù)數(shù)據(jù)轉(zhuǎn)換清理數(shù)據(jù),然后利用這些數(shù)據(jù)組成挖掘模型。利用DTS中的任務(wù)和轉(zhuǎn)移,您可以把數(shù)據(jù)準(zhǔn)備和模型建立結(jié)合為一個單一的DTS包。</p><p> DTS公司還提供了DTS設(shè)計器,以幫助您輕松地建立和運行的包含了所有的任務(wù)和轉(zhuǎn)變的軟件包。利用DTS設(shè)計器,您可以將包發(fā)布到服務(wù)器上并定期的運行他們。這是非常有用例如,你每周收集數(shù)據(jù)資料,并向要每次自動執(zhí)行相同的清潔轉(zhuǎn)換工作。</p&
25、gt;<p> 你可以通過向商業(yè)智能開發(fā)式的解決方案中分別增加項目來將數(shù)據(jù)轉(zhuǎn)換項目和分析服務(wù)項目結(jié)合起來工作,作為商務(wù)智能解決方案的一部分。</p><p><b> 挖掘模式算法</b></p><p> 數(shù)據(jù)挖掘算法是挖掘模型的創(chuàng)建的基礎(chǔ)。SQL Server 2005中各種各樣的算法可以讓你執(zhí)行多種類型的執(zhí)行。欲了解更多有關(guān)算法及其參數(shù)調(diào)整的
26、信息,請參看SQL Server聯(lián)機(jī)叢書中的“數(shù)據(jù)挖掘算法”。</p><p><b> 決策樹</b></p><p> 決策樹算法支持分類與回歸并且對預(yù)測模型也行之有效。利用該算法,你可以預(yù)測離散和連續(xù)這兩個屬性。</p><p> 在建立模型時,該算法檢查每個數(shù)據(jù)集的輸入屬性是怎樣的影響預(yù)測屬性的結(jié)果,以及使用最強(qiáng)的關(guān)系的輸入屬性制
27、造了一系列的分裂,稱為節(jié)點。隨著新節(jié)點添加到模型中,樹狀結(jié)構(gòu)開始形成。頂端節(jié)點樹描述了大多數(shù)預(yù)測屬性的統(tǒng)計分析。每個節(jié)點建立把預(yù)測屬性比作投入的屬性的分布情況上。如果輸入的屬性被視為導(dǎo)致預(yù)測屬性有利于促成比另一個更好的狀態(tài),于是一個新的節(jié)點添加到模型。該模型繼續(xù)增長,直到?jīng)]有剩余的屬性制造分裂提供了一個更好的預(yù)測在現(xiàn)有節(jié)點。該模型力圖找到一個結(jié)合的屬性和引起在預(yù)測屬性不成比例分配的狀態(tài),因此,您可以預(yù)測預(yù)測屬性的結(jié)果。</p>
28、;<p><b> 簇</b></p><p> 簇算法采用迭代技術(shù)組從包含相似特性的數(shù)據(jù)及中進(jìn)行分類。利用這些組合,您可以探討的數(shù)據(jù),更多地了解存在的關(guān)系,這在理論上可能不容易通過偶然的觀察獲得。此外,您也可以從算法創(chuàng)建的簇建立預(yù)測模型。例如,考慮那些住在同一社區(qū),驅(qū)動器相同的車,吃同樣的食物,買了類似的版本的產(chǎn)品的那一個群體的人。這是一組數(shù)據(jù)。另一組可能包括去相同的餐廳
29、,也有類似的薪金,休假和每年兩次以外的地區(qū)的人。觀測這些集合是如何的分布,可以更好地了解預(yù)測屬性的結(jié)果是如何相互影響的。</p><p><b> 傳統(tǒng)貝葉斯</b></p><p> 傳統(tǒng)貝葉斯算法迅速的建立挖掘模型,可用來做分類和預(yù)測。它適合各個輸入屬性情況的可能情況,并考慮到每種預(yù)測屬性的情況,以后可以在已知的輸入屬性的基礎(chǔ)上來預(yù)測預(yù)測屬性的結(jié)果。概率用來生
30、成計算和儲存加工過程中的立方體的模型。該算法只支持分立或離散屬性,以及它認(rèn)為所有輸入的屬性是獨立的。傳統(tǒng)貝葉斯算法產(chǎn)生一個簡單的挖掘模型,可以被視為在數(shù)據(jù)挖掘過程中的一個起點。由于大多數(shù)的計算結(jié)果是立方體處理的過程中生成的,結(jié)果很快返回。這使得該模型成為探索數(shù)據(jù)和發(fā)現(xiàn)各種不同的輸入屬性在不同預(yù)測屬性的情況下是如何分布的一個很好的選擇。</p><p><b> 時間系</b></p&
31、gt;<p> 時間系算法創(chuàng)建可以用來預(yù)測連續(xù)變量隨著時間的推移從聯(lián)機(jī)分析處理和關(guān)系數(shù)據(jù)源的模式,。例如,您可以使用時間系預(yù)測算法歷史數(shù)據(jù)立方體的基礎(chǔ)上來預(yù)測銷售額和利潤。</p><p> 利用該算法,您可以選擇一個或多個變量來預(yù)測,但他們必須是繼續(xù)的。對每個模式您只能有一系列案例。一系列的案例等同于一系列位置,諸如尋求銷售的長度的日期超過幾個月或幾年。</p><p>
32、; 一個例子可能包含了一套變量(例如,銷售不同的商店) 。時間系算法可以在預(yù)測中使用跨變量。例如,在一個商店的先售可能在預(yù)測另一個商店的當(dāng)前銷售時也有用。</p><p><b> 聯(lián)結(jié)</b></p><p> 聯(lián)結(jié)算法是專門設(shè)計用于市場籃子分析。該算法認(rèn)為每個屬性/值配對(如產(chǎn)品/自行車)作為一個項目。一個相集是在單一事務(wù)的項目上的一個組合。該算法通過掃描數(shù)
33、據(jù)集試圖找到往往出現(xiàn)在許多交易的項目集。出現(xiàn)在很多交易項面前的支持參數(shù)確定被認(rèn)為是重要的。例如,頻繁項目集可能包含(性別= “男性” ,婚姻狀況= “已婚” ,年齡= “ 30-35 ” ) 。每個項目集包含項目的數(shù)量都有個大小。在這種情況下,大小是3 。</p><p> 往往聯(lián)結(jié)模式在包含嵌套表的數(shù)據(jù)集之后工作,如客戶名單在一個嵌套的購買列表后。如果一個嵌套表中存在數(shù)據(jù)集,每個嵌套的建制(如在購買表的產(chǎn)品)
34、被認(rèn)為是一個項目。</p><p> 算法同時找到項目集之間的聯(lián)系。關(guān)聯(lián)模型的規(guī)則看起來像A,B= >C (發(fā)生概率的聯(lián)系) ,其中有A , B , C都是頻繁項目集。' = > ‘意味著C是通過A和B預(yù)測的。概率閾值是一個在被深思考慮的規(guī)則之前確定了最低概率參數(shù)。這些概率在數(shù)據(jù)挖掘文獻(xiàn)中也被稱為“信任”。</p><p> 聯(lián)結(jié)模式同樣對交叉銷售或協(xié)同過濾有用。例
35、如,您可以使用聯(lián)結(jié)模式在他們購物籃項目上來預(yù)測一個用戶可能希望購買的產(chǎn)品。</p><p><b> 序列簇</b></p><p> 序列簇分析算法分析有關(guān)聯(lián)導(dǎo)向的包含離散值系列的數(shù)據(jù)。通常串聯(lián)的一連串屬性擁有特定的命令(如點擊路徑)的一組事件。通過分析有關(guān)聯(lián)的事物之間的情況的轉(zhuǎn)變,該算法可以預(yù)測有關(guān)聯(lián)的事務(wù)將來的情況。</p><p>
36、 序列簇算法是一種混合型的序列和聚類算法。該算法根據(jù)這些關(guān)系的相似性將有關(guān)系屬性的的多重案例分組成片段。該算法的一個典型的使用情況是一個門戶網(wǎng)站的網(wǎng)絡(luò)客戶分析。一個門戶網(wǎng)站擁有一套附屬領(lǐng)域,如新聞,天氣,金錢,郵件,和體育。每個網(wǎng)站的客戶通過在這些領(lǐng)域中網(wǎng)頁點擊的 順序聯(lián)系起來。序列簇算法可以根據(jù)他們的導(dǎo)航模式將這些網(wǎng)頁客戶分組成差不多同質(zhì)的團(tuán)體。這些團(tuán)體是視化的,提供了詳細(xì)的了解客戶如何使用該網(wǎng)站。</p><p
37、><b> 神經(jīng)網(wǎng)絡(luò)</b></p><p> 在Microsoft SQL Server 2005分析服務(wù)中,神經(jīng)網(wǎng)絡(luò)算法通過構(gòu)建多層感知神經(jīng)元網(wǎng)絡(luò)建立分類與回歸挖掘模型。類似微軟決策樹算法的供應(yīng)商,考慮到每個可預(yù)測屬性的情況,該算法為馬格可能輸入屬性的情況計算概率。該算法提供案例的過程,反復(fù)比較預(yù)測分類的情況和已知的實際分類的案件。這些來自第一代的整套案件中從最初的分類錯誤,被
38、反饋到網(wǎng)絡(luò),用來修改網(wǎng)絡(luò)性能的下一代,等等。以后您可以在輸入屬性的基礎(chǔ)上使用這些概率來預(yù)測那些預(yù)測屬性的結(jié)果。然而,該算法和決策樹算法其中一個主要區(qū)別,是其學(xué)習(xí)的過程是朝著盡量減少錯誤的方向優(yōu)化網(wǎng)絡(luò)參數(shù),而決策樹算法的分裂規(guī)則,以求最大限度地發(fā)揮信息增益。該算法支持預(yù)測的離散和連續(xù)屬性。</p><p><b> 線性回歸</b></p><p> 線性回歸算法是
39、決策樹算法的一種特殊的構(gòu)造,獲得了無效的分裂(整個回歸公式是建立在一個單一根節(jié)點) 。該算法支持預(yù)測連續(xù)屬性。</p><p><b> 邏輯回歸</b></p><p> 邏輯回歸算法是神經(jīng)網(wǎng)絡(luò)算法的一種特殊的構(gòu)造,得到了消除隱蔽層。該算法支持預(yù)測的離散和連續(xù)屬性。</p><p><b> 通過教程實踐</b>&
40、lt;/p><p> 在本教程你將在商業(yè)智能開發(fā)工作室中工作(所描繪圖1 ) 。如需要更多關(guān)于商業(yè)智能開發(fā)工作室的消息,見“使用SQL Server Management Studio中” SQL Server在線聯(lián)機(jī)叢書中。</p><p> 圖 1 商業(yè)智能工作室</p><p> 該教程是分為三個部分:準(zhǔn)備SQL Serve
41、r數(shù)據(jù)庫,編寫分析服務(wù)數(shù)據(jù)庫,建設(shè)并從事挖掘模型的工作。</p><p><b> 數(shù)據(jù)庫的準(zhǔn)備</b></p><p> 該AdventureWorksDW數(shù)據(jù)庫,作為本教程的基礎(chǔ),與SQL Server 一起安裝(但不是默認(rèn)的,作為一個選項在安裝時間) ,并已包含將用于建立挖掘模型的意見。如果沒有在安裝時安裝,您可以在控制面板->添加/刪除程序->
42、微軟SQL Server 2005選擇“改變”按鈕添加它。你可以根據(jù)在線圖書和工作站組件樣品查找AdventureWorksDW采樣數(shù)據(jù)倉庫。</p><p><b> 準(zhǔn)備分析服務(wù)數(shù)據(jù)庫</b></p><p> 在您開始創(chuàng)建和使用挖掘模型之前,您必須執(zhí)行下列任務(wù):</p><p> 創(chuàng)建一個新的分析服務(wù)項目</p>&l
43、t;p><b> 創(chuàng)建一個數(shù)據(jù)源</b></p><p> 創(chuàng)建一個數(shù)據(jù)源的視圖</p><p><b> 創(chuàng)建分析服務(wù)項目</b></p><p> 每個分析服務(wù)項目為一個單一的分析服務(wù)數(shù)據(jù)庫中的對象定義概要。分析服務(wù)數(shù)據(jù)庫是由它包含的挖掘模型, OLAP的立方體,和供給對象所定義的。欲了解更多有關(guān)分析服務(wù)
44、項目的信息,請參看SQL Server聯(lián)機(jī)叢書中的“在商業(yè)智能開發(fā)工作室中創(chuàng)建分析服務(wù)項目”。</p><p> 要創(chuàng)建一個分析服務(wù)項目:</p><p> 打開商業(yè)智能開發(fā)工作室</p><p> 在文件菜單中選擇新建項目</p><p> 新項目的類型選擇分析服務(wù)項目,并命名為AdventureWorks </p>
45、<p><b> 單擊確定</b></p><p> 在商務(wù)智能開發(fā)工作室中打開新項目。</p><p><b> 創(chuàng)建數(shù)據(jù)源</b></p><p> 數(shù)據(jù)源是一個數(shù)據(jù)連接,它在您的項目中被保存和管理,并被發(fā)布到您的分析服務(wù)數(shù)據(jù)庫中。它包含服務(wù)器名稱和源數(shù)據(jù)所在的數(shù)據(jù)庫,以及其他被需求的連接屬性。<
46、;/p><p><b> 要創(chuàng)建數(shù)據(jù)源:</b></p><p> 在解決方案資源管理器中右鍵單擊該數(shù)據(jù)源工程項目,并選擇新數(shù)據(jù)源</p><p> 在歡迎頁上,單擊下一步</p><p> 單擊新建增加一個到AdventureWorksDW數(shù)據(jù)庫的連接</p><p> 彈出連接管理器對話
47、框。在服務(wù)器名稱下拉框中,選擇服務(wù)器托管AdventureWorksDW (例如,本地) ,導(dǎo)入您的證書,然后在選擇數(shù)據(jù)庫服務(wù)器上下拉框中選擇AdventureWorksDW數(shù)據(jù)庫。 </p><p> 單擊確定以關(guān)閉連接管理器對話框</p><p><b> 單擊下一步</b></p><p> 默認(rèn)的數(shù)據(jù)源命名為探險工程數(shù)據(jù)倉庫。單擊
48、完成</p><p> AdventureWorksDW作為新的數(shù)據(jù)源,出現(xiàn)在解決方案資源管理器中的數(shù)據(jù)源文件夾中。</p><p><b> 英文原文</b></p><p> Data Mining Tutorial</p><p> Seth PaulJamie MacLennanZhaohui Tan
49、gScott Oveson</p><p> Abstract: Microsoft® SQL Server? 2005 provides an integrated environment for creating and working with data mining models. This tutorial uses four scenarios, targeted m
50、ailing, forecasting, market basket, and sequence clustering, to demonstrate how to use the mining model algorithms, mining model viewers, and data mining tools that are included in this rele
51、ase of SQL Server.</p><p> The information contained in this document represents the current view of Microsoft Corporation on the issues discussed as of the date of publication. Because Microsoft must respo
52、nd to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information presented after the date of publication.</p>
53、;<p> This white paper is for informational purposes only. MICROSOFT MAKES NO WARRANTIES, EXPRESS OR IMPLIED, AS TO THE INFORMATION IN THIS DOCUMENT.</p><p> Complying with all applicable copyright
54、laws is the responsibility of the user. Without limiting the rights under copyright, no part of this document may be reproduced, stored in or introduced into a retrieval system, or transmitted in any form or by any means
55、 (electronic, mechanical, photocopying, recording, or otherwise), or for any purpose, without the express written permission of Microsoft Corporation. </p><p> Microsoft may have patents, patent application
56、s, trademarks, copyrights, or other intellectual property rights covering subject matter in this document. Except as expressly provided in any written license agreement from Microsoft, the furnishing of this document doe
57、s not give you any license to these patents, trademarks, copyrights, or other intellectual property.</p><p> ? 2003 Microsoft Corporation. All rights reserved.</p><p> Microsoft is either a re
58、gistered trademark or a trademark of Microsoft Corporation in the United States and/or other countries.</p><p> The names of actual companies and products mentioned herein may be the trademarks of their res
59、pective owner</p><p> Introduction</p><p> The data mining tutorial is designed to walk you through the process of creating data mining models in Microsoft SQL Server 2005. The data mining alg
60、orithms and tools in SQL Server 2005 make it easy to build a comprehensive solution for a variety of projects, including market basket analysis, forecasting analysis, and targeted mailing analysis. The scenarios for thes
61、e solutions are explained in greater detail later in the tutorial. </p><p> The most visible components in SQL Server 2005 are the workspaces that you use to create and work with data mining models. The onl
62、ine analytical processing (OLAP) and data mining tools are consolidated into two working environments: Business Intelligence Development Studio and SQL Server Management Studio. Using Business Intelligence Development St
63、udio, you can develop an Analysis Services project disconnected from the server. When the project is ready, you can deploy it to the server. You can a</p><p> All of the data mining tools exist in the data
64、mining editor. Using the editor you can manage mining models, create new models, view models, compare models, and create predictions based on existing models. </p><p> After you build a mining model, you wi
65、ll want to explore it, looking for interesting patterns and rules. Each mining model viewer in the editor is customized to explore models built with a specific algorithm. For more information about the viewers, see "
66、;Viewing a Data Mining Model" in SQL Server Books Online.</p><p> Often your project will contain several mining models, so before you can use a model to create predictions, you need to be able to dete
67、rmine which model is the most accurate. For this reason, the editor contains a model comparison tool called the Mining Accuracy Chart tab. Using this tool you can compare the predictive accuracy of your models and determ
68、ine the best model. </p><p> To create predictions, you will use the Data Mining Extensions (DMX) language. DMX extends SQL, containing commands to create, modify, and predict against mining models. For mor
69、e information about DMX, see "Data Mining Extensions (DMX) Reference" in SQL Server Books Online. Because creating a prediction can be complicated, the data mining editor contains a tool called Prediction Query
70、 Builder, which allows you to build queries using a graphical interface. You can also view the DMX code that is g</p><p> Just as important as the tools that you use to work with and create data mining mode
71、ls are the mechanics by which they are created. The key to creating a mining model is the data mining algorithm. The algorithm finds patterns in the data that you pass it, and it translates them into a mining model — it
72、is the engine behind the process. SQL Server 2005 includes nine algorithms:</p><p> Microsoft Decision Trees</p><p> Microsoft Clustering</p><p> Microsoft Naïve Bayes</p
73、><p> Microsoft Sequence Clustering</p><p> Microsoft Time Series</p><p> Microsoft Association</p><p> Microsoft Neural Network</p><p> Microsoft Linear
74、 Regression</p><p> Microsoft Logistic Regression</p><p> Using a combination of these nine algorithms, you can create solutions to common business problems. These algorithms are described in
75、more detail later in this tutorial. </p><p> Some of the most important steps in creating a data mining solution are consolidating, cleaning, and preparing the data to be used to create the mining models. S
76、QL Server 2005 includes the Data Transformation Services (DTS) working environment, which contains tools that you can use to clean, validate, and prepare your data. For more information on using DTS in conjunction with a
77、 data mining solution, see "DTS Data Mining Tasks and Transformations" in SQL Server Books Online.</p><p> In order to demonstrate the SQL Server data mining features, this tutorial uses a new sam
78、ple database called AdventureWorksDW. The database is included with SQL Server 2005, and it supports OLAP and data mining functionality. In order to make the sample database available, you need to select the sample datab
79、ase at the installation time in the “Advanced” dialog for component selection.</p><p> The audience for this tutorial is business analysts, developers, and database administrators who have used data mining
80、tools before and are familiar with data mining concepts. If you are new to data mining, download "Preparing and Mining Data with Microsoft SQL Server 2000 and Analysis Services" (msdn.microsoft.com/library/defa
81、ult.asp?url=/servers/books/sqlserver/mining.asp).</p><p> Adventure Works</p><p> AdventureWorksDW is based on a fictional bicycle manufacturing company named Adventure Works Cycles. Adventure
82、 Works produces and distributes metal and composite bicycles to North American, European, and Asian commercial markets. The base of operations is located in Bothell, Washington with 500 employees, and several regional sa
83、les teams are located throughout their market base. </p><p> Adventure Works sells products wholesale to specialty shops and to individuals through the Internet. For the data mining exercises, you will work
84、 with the AdventureWorksDW Internet sales tables, which contain realistic patterns that work well for data mining exercises. </p><p> For more information on Adventure Works Cycles see "Sample Database
85、s and Business Scenarios" in SQL Server Books Online.</p><p> Database Details</p><p> The Internet sales schema contains information about 9,242 customers. These customers live in six co
86、untries, which are combined into three regions:</p><p> North America (83%)</p><p> Europe (12%)</p><p> Australia (7%)</p><p> The database contains data for three
87、 fiscal years: 2002, 2003, and 2004. </p><p> The products in the database are broken down by subcategory, model, and product.</p><p> Business Intelligence Development Studio</p><p
88、> Business Intelligence Development Studio is a set of tools designed for creating business intelligence projects. Because Business Intelligence Development Studio was created as an IDE environment in which you can c
89、reate a complete solution, you work disconnected from the server. You can change your data mining objects as much as you want, but the changes are not reflected on the server until after you deploy the project.</p>
90、<p> Working in an IDE is beneficial for the following reasons:</p><p> You have powerful customization tools available to configure Business Intelligence Development Studio to suit your needs.</
91、p><p> You can integrate your Analysis Services project with a variety of other business intelligence projects encapsulating your entire solution into a single view.</p><p> Full source control i
92、ntegration enables your entire team to collaborate in creating a complete business intelligence solution.</p><p> The Analysis Services project is the entry point for a business intelligence solution. An An
93、alysis Services project encapsulates mining models and OLAP cubes, along with supplemental objects that make up the Analysis Services database. From Business Intelligence Development Studio, you can create and edit Analy
94、sis Services objects within a project and deploy the project to the appropriate Analysis Services server or servers.</p><p> If you are working with an existing Analysis Services project, you can also use B
95、usiness Intelligence Development Studio to work connected the server. In this way, changes are reflected directly on the server without having to deploy the solution.</p><p> SQL Server Management Studio<
96、;/p><p> SQL Server Management Studio is a collection of administrative and scripting tools for working with Microsoft SQL Server components. This workspace differs from Business Intelligence Development Studi
97、o in that you are working in a connected environment where actions are propagated to the server as soon as you save your work. </p><p> After the data has been cleaned and prepared for data mining, most of
98、the tasks associated with creating a data mining solution are performed within Business Intelligence Development Studio. Using the Business Intelligence Development Studio tools, you develop and test the data mining solu
99、tion, using an iterative process to determine which models work best for a given situation. When the developer is satisfied with the solution, it is deployed to an Analysis Services server. From this point, the</p>
100、<p> Data Transformation Services</p><p> Data Transformation Services (DTS) comprises the Extract, Transform, and Load (ETL) tools in SQL Server 2005. These tools can be used to perform some of the
101、 most important tasks in data mining: cleaning and preparing the data for model creation. In data mining, you typically perform repetitive data transformations to clean the data before using the data to train a mining mo
102、del. Using the tasks and transformations in DTS, you can combine data preparation and model creation into a single DTS packa</p><p> DTS also provides DTS Designer to help you easily build and run packages
103、containing all of the tasks and transformations. Using DTS Designer, you can deploy the packages to a server and run them on a regularly scheduled basis. This is useful if, for example, you collect data weekly data and w
104、ant to perform the same cleaning transformations each time in an automated fashion.</p><p> You can work with a Data Transformation project and an Analysis Services project together as part of a business in
105、telligence solution, by adding each project to a solution in Business Intelligence Development Studio.</p><p> Mining Model Algorithms</p><p> Data mining algorithms are the foundation from wh
106、ich mining models are created. The variety of algorithms included in SQL Server 2005 allows you to perform many types of analysis. For more specific information about the algorithms and how they can be adjusted using par
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論