版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、從數(shù)據(jù)挖掘到深度學習——大數(shù)據(jù)建模分析的算法和應用概述,劉豫2016-3-25,提綱,概述大數(shù)據(jù)建模分析算法和應用數(shù)據(jù)挖掘算法簡介深度學習算法簡介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,實現(xiàn)基礎:數(shù)據(jù)庫、數(shù)據(jù)倉庫、分布式存儲、并行計算、流式計算、GPU加速……,,大數(shù)據(jù)建模分析的理論和方法,2024/3/23,如果數(shù)據(jù)是21世紀最寶貴的財富,大數(shù)據(jù)分析就是當今最偉大的煉金術(shù),可以從前所未有的大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)前所未知的知識,
2、實現(xiàn)不可限量的價值。大數(shù)據(jù)分析依賴的理論和方法主要包括傳統(tǒng)的統(tǒng)計學、機器學習、數(shù)據(jù)挖掘,以及近10年來逐漸發(fā)展成熟的深度學習。,統(tǒng)計學,機器學習,數(shù)據(jù)挖掘,深度學習,,,,,提供特征和模型,重要的發(fā)展分支,提供數(shù)據(jù)分析技術(shù)基礎,實現(xiàn)對海量數(shù)據(jù)的明確可預期的分析能力算法可解析,物理意義清晰,實現(xiàn)對海量數(shù)據(jù)的超越預期的分析能力算法多為啟發(fā)式的,難以分析和理解,人工學習特征人工學習規(guī)律,人工學習特征自動學習規(guī)律,自動學習特征自動
3、學習規(guī)律,關(guān)于特征、規(guī)律和學習,2024/3/23,大數(shù)據(jù)建模分析的本質(zhì)是通過構(gòu)建數(shù)學模型,從數(shù)據(jù)中學習特征和規(guī)律,收獲有用的知識。特征:決定數(shù)據(jù)對象所蘊含的知識的關(guān)鍵屬性規(guī)律:將特征的表達為目標知識的一種模式,及其參數(shù)學習:從樣本數(shù)據(jù)集計算得到規(guī)律的過程,大數(shù)據(jù)建模分析的基本流程,關(guān)于學習,2024/3/23,學習能力是大數(shù)據(jù)分析建模的關(guān)鍵技術(shù)之一。根據(jù)反饋的不同,學習技術(shù)可以分為監(jiān)督學習(Supervised learning
4、)、非監(jiān)督學習(Unsupervised learning)、半監(jiān)督學習(Semi-supervised learning)和強化學習(Reinforcement learning)四大類。,半監(jiān)督(Semi-supervised) 學習案例,步驟一: 用帶有標識的圖片訓練分類器,步驟二: 對沒有標識的數(shù)據(jù)進行分類,并按照信任度從大到小進行排序,,,步驟三: 將信任度最高的圖片自動加入標識項,,步驟四: 重新訓練分類器并重復步驟二~步驟
5、四,,圖片分類案例:從圖庫中識別出“日蝕”圖片。當圖庫巨大時,人工標注耗時耗力。,提綱,概述大數(shù)據(jù)建模分析算法和應用數(shù)據(jù)挖掘算法簡介深度學習算法簡介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,數(shù)據(jù)挖掘的概念和歷史,,,,,,1960s,1970s and 80s,1990s,2000s--,Data CollectionDatabase Creation,Relational Data ModelRDBMS,Data Mini
6、ngData WarehouseMultimedia DatabaseWeb Database,Stream data management and miningWeb technology (XML, data integration),SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎之上進行數(shù)據(jù)探索和建立相關(guān)模型的先進方法”Bhavani(1999):“使用模式識別技術(shù)、統(tǒng)計和數(shù)學技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式
7、和趨勢的過程”Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”Jiawei Han(韓家煒)(2000):從海量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中、人們事先不知道的、但又潛在有用的信息和知識的過程 --《數(shù)據(jù)挖掘:概念與技術(shù)》,數(shù)據(jù)挖掘定義的發(fā)展,,,,數(shù)據(jù)挖掘(Data Mining)一詞是在1989年8月召開的第十一屆國際聯(lián)合
8、人工智能學術(shù)會議(JCAI’89)上正式形成的,其根源可追溯到經(jīng)典統(tǒng)計學、人工智能、機器學習三個學科,關(guān)系型數(shù)據(jù)庫、互聯(lián)網(wǎng)的廣泛應用兩次推動了數(shù)據(jù)挖掘技術(shù)的發(fā)展。,9,主要的數(shù)據(jù)挖掘算法,隨著數(shù)據(jù)挖掘應用多年來不斷的擴展和深化,產(chǎn)生積累了大量的數(shù)據(jù)挖掘算法。根據(jù)應用場景及目標的不同,可以將數(shù)據(jù)挖掘算法分為如下幾類。,分類算法,單一的分類方法主要包括:決策樹、貝葉斯、神經(jīng)網(wǎng)絡、K-近鄰、支持向量機分類等集成學習算法:組合單一分類方法
9、如Bagging和Boosting等分類算法需要對訓練數(shù)據(jù)集進行標識、即事先確定好類別,屬于監(jiān)督學習分類算法的應用場景:解決各種模式識別問題圖庫軟件的圖片分類新聞網(wǎng)站的話題分類銀行貸款客戶的風險分類醫(yī)院對患者病因的分類,分類的目的是根據(jù)數(shù)據(jù)集的特點構(gòu)造一個分類器,把未知類別的樣本映射到給定類別中的某一個。,分類算法 :貝葉斯,貝葉斯貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進行分類的算法,如樸素貝葉斯(Naive
10、Bayes)算法主要利用Bayes定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別由于貝葉斯定理的成立本身需要一個很強的條件獨立性假設,而此假設在實際情況中經(jīng)常是不成立的,其分類準確性就會下降為此,出現(xiàn)了許多降低獨立性假設的貝葉斯分類算法,如TAN(Tree Augmented Naive Bayes)算法,可以考慮屬性間的關(guān)聯(lián)性,P(A|B)=P(B|A)*P(A)/P(B),貝
11、葉斯公式:,分類應用:,,P(類別|樣本)=P(樣本|類別)*P(類別)=ΠP(樣本各屬性|類別)*P(類別),分類算法:KNN,k-近鄰 (kNN,k-Nearest Neighbors)k-近鄰算法是一種基于實例的分類方法該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數(shù)屬于哪一類,就把x歸為那一類k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較復雜,可能會導致很大的計算
12、開銷當樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數(shù),分類算法:SVM,支持向量機 支持向量機(SVM,Support Vector Machine)是Vapnik根據(jù)統(tǒng)計學習理論提出的一種新的學習方法SVM方法是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為
13、在特征空間中的線性可分的問題它的最大特點是根據(jù)結(jié)構(gòu)風險最小化準則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點等問題SVM一般只能用在二類問題,對于多類問題效果不好,示例一,示例二,分類算法:決策樹,決策樹 決策樹是用于分類的主要技術(shù),是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用來預測
14、將來未知類別的記錄的類別它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論主要的決策樹算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等它們在選擇測試屬性采用的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以及時刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處決策樹模型的缺點:處理缺失數(shù)據(jù)時的困難過度擬合問題忽略數(shù)據(jù)集中屬性之
15、間的相關(guān)性,聚類算法,劃分法(partitioning methods)給定一個有N個元組或者紀錄的數(shù)據(jù)集,劃分法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好使用劃分法思想的算法有:K-MEANS、K-MEDOIDS、CLARANS密度法(dens
16、ity-based methods)密度法它不是基于各種各樣的距離的,而是基于密度的克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點指導思想只要一個點所屬區(qū)域的密度大過某個閾值,就把它加到與之相近的聚類中去代表算法有:DBSCAN、OPTICS、DENCLUE等層次法(hierarchical methods)將數(shù)據(jù)轉(zhuǎn)換為樹形結(jié)構(gòu),實現(xiàn)不同層次上的聚類模型法(model-based methods)對于每個類假定
17、一個分布模型,試圖找到每個類最好的模型混合高斯模型GMM,聚類算法的任務是將相似的事物分成一類,不依賴于事先確定好的組別,屬于無監(jiān)督學習。聚類算法根據(jù)設計思想的不同主要有如下幾種。,聚類算法:K-Means和K-Medoids,K-Meansk-Means 算法接受輸入量 k ;然后將n個數(shù)據(jù)對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲
18、得一個“中心對象”(引力中心)來進行計算的。k-Means 算法流程:首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值)不斷重復這一過程直到標準測度函數(shù)開始收斂為止一般都采用均方差作為標準測度函數(shù)K-Means的缺點:產(chǎn)生類的大小相差不會很大,對
19、于臟數(shù)據(jù)很敏感K-MEDOIDS對K-Means改進:選取一個對象叫做mediod來代替上面的中心的作用,這樣的一個medoid就標識了這個類在K-means中,中心點取為當前cluster中所有數(shù)據(jù)點的平均值在 K-medoids算法中,從當前cluster 中選取這樣一個點——它到其他所有(當前cluster中的)點的距離之和最小——作為中心點,聚類算法:高斯混合模型GMM,GMM將k個高斯模型混合在一起,每個點出現(xiàn)的概
20、率是幾個高斯混合的結(jié)果假設有K個高斯分布,每個高斯對數(shù)據(jù)點的影響因子為πk,數(shù)據(jù)點為x,高斯參數(shù)為thetaEM(expectation maximization)算法對產(chǎn)生樣本數(shù)據(jù)的最大似然實現(xiàn)各個高斯模型估計GMM可以給出每個數(shù)據(jù)屬于各個類型的概率,可以對non-spherical數(shù)據(jù)進行聚類缺點是計算量大,不保證全局最優(yōu),,聚類算法:DBSCAN,DBSCAN(Density-Based Spatia
21、l Clustering of Applications with Noise)幾個定義:Ε領(lǐng)域:給定對象半徑為Ε內(nèi)的區(qū)域稱為該對象的Ε領(lǐng)域;核心對象:如果給定對象Ε領(lǐng)域內(nèi)的樣本點數(shù)大于等于MinPts,則稱該對象為核心對象;直接密度可達:對于樣本集合D,如果樣本點q在p的Ε領(lǐng)域內(nèi),并且p為核心對象,那么對象q從對象p直接密度可達。密度可達:對于樣本集合D,給定一串樣本點p1,p2….pn,p= p1,q= pn,假如對象pi
22、從pi-1直接密度可達,那么對象q從對象p密度可達。密度相連:存在樣本集合D中的一點o,如果對象o到對象p和對象q都是密度可達的,那么p和q密度相聯(lián)DBSCAN目的是找到密度相連對象的最大集合DBSCAN算法描述:輸入: 包含n個對象的數(shù)據(jù)庫,半徑e,最少數(shù)目MinPts;輸出:所有生成的簇,達到密度要求。(1)Repeat(2)從數(shù)據(jù)庫中抽出一個未處理的點;(3)IF抽出的點是核心點 THEN 找出所有從該點密度可達的
23、對象,形成一個簇;(4)ELSE 抽出的點是邊緣點(非核心對象),跳出本次循環(huán),尋找下一個點;(5)UNTIL 所有的點都被處理優(yōu)點:不需要事先知道要形成的簇類的數(shù)量可以發(fā)現(xiàn)任意形狀的簇類能夠識別出噪聲點缺點:不能適應變化的密度,基于聚類的應用——用戶價值評估,數(shù)據(jù)來源和聚類模型,數(shù)據(jù):2012年2月MM商城活躍用戶信息及相關(guān)下載記錄 聚類維度:選擇最新下載的時間間隔(R)、下載的頻率(F)以及費用(M)進行聚類 使用
24、MongoDB統(tǒng)計每個用戶對應的3個聚類屬性 使用Mahout的Canopy+K-means聚類模型在Hadoop平臺計算聚類結(jié)果,用戶信息約204萬條,73.6MB,應用信息約12.7萬條,14.5MB,下載記錄約2000萬條,1.3GB,聚類結(jié)果和分析,算法性能,聚類的結(jié)果將204萬用戶分為4類,如圖所示,在3節(jié)點的Hadoop平臺上完成204萬用戶的聚類計算只需要10分鐘左右,48.6%,13.5%,22.6%,15.3%
25、,沉默型,價值型,免費型,試探型,關(guān)聯(lián)規(guī)則挖掘算法,有關(guān)關(guān)聯(lián)關(guān)系的關(guān)鍵概念:S-事件總集,A-出現(xiàn)A的事件集,B-出現(xiàn)B的事件集,AB-同時出現(xiàn)A和B的事件集A-B可信度=|AB|/|A|支持度=|AB|/|S|期望可信度=|B|/|S|A-B作用度=A-B可信度/B期望可信度可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量,支持度是對關(guān)聯(lián)規(guī)則重要性的衡量,作用度描述了A 對B 的影響力為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,一般需要給定兩個閾值:最小
26、支持度和最小可信度,關(guān)聯(lián)規(guī)則挖掘的目標是發(fā)現(xiàn)有意義的事物同時出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則挖掘算法屬于無監(jiān)督學習的方法。最常用的關(guān)聯(lián)規(guī)則算法有Apriori和FP-Growth兩種。,,,A,B,,S,關(guān)聯(lián)規(guī)則挖掘算法,Apriori算法從少到多生成頻繁項,根據(jù)前一次找到的頻繁項來生成本次的頻繁項,提升頻繁項產(chǎn)生效率缺點:產(chǎn)生大量的候選集重復掃描數(shù)據(jù)庫,關(guān)聯(lián)規(guī)則挖掘算法,FP-GrowthJ. Han等2000年提出不產(chǎn)生候選頻繁集
27、只需要兩次遍歷數(shù)據(jù)庫FP-Growth算法流程:基本思路:不斷地迭代FP-tree的構(gòu)造和投影過程。對于每個頻繁項,構(gòu)造它的條件投影數(shù)據(jù)庫和投影FP-tree。對每個新構(gòu)建的FP-tree重復這個過程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑。當構(gòu)造的FP-tree為空時,其前綴即為頻繁模式;當只包含一條路徑時,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式,FP-Tree的生成,FP-Tree的分割,針對MM
28、2個月的日志信息,采用Mahout PFPG關(guān)聯(lián)規(guī)則挖掘算法進行模式挖掘,算法配置參數(shù)為:最小支持度600,最小置信度0.7,挖掘的模式數(shù)為15,具體結(jié)果如下:,模式挖掘結(jié)果:,應用ID,置信度值%,,,,關(guān)聯(lián)規(guī)則挖掘算法應用,異常檢測算法,基于統(tǒng)計的異常點檢測算法 通常用某個統(tǒng)計分布對數(shù)據(jù)點進行建模,再以假定的模型判斷點的分布是否存在異常單樣本多個離群檢測算法 ESD、GESR缺點:模型擬合不準確、難以解釋異常點基于距離的異
29、常點檢測算法 離群點被定義為數(shù)據(jù)集中與大多數(shù)點之間的距離都大于某個閾值的點,通常被描述為 DB ( pct,d_min),數(shù)據(jù)集 T中一個記錄 O稱為離群點,當且僅當數(shù)據(jù)集T中至少有 pct部分的數(shù)據(jù)與 O 的距離大于 d_min孤立點是數(shù)據(jù)集中到第 k 個最近鄰居的距離最大的 n 個對象 孤立點是數(shù)據(jù)集中與其 k 個最近鄰居的平均距離最大的 n個對象 優(yōu)點:直觀、計算簡單缺點:參數(shù)難以確定、高維數(shù)據(jù)效果差基于密度的異常點
30、檢測算法 將記錄之間的距離和某一給定范圍內(nèi)記錄數(shù)這兩個參數(shù)結(jié)合起來,從而得到“密度”的概念,然后根據(jù)密度判定記錄是否為離群點優(yōu)點:可以發(fā)現(xiàn)局部異常,在數(shù)據(jù)庫中包含著少數(shù)的數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或特征不一致,這些數(shù)據(jù)對象叫做異常點 (Outlier) ,也叫做孤立點。異常點的檢測和分析是一種十分重要的數(shù)據(jù)挖掘類型,被稱之為異常點挖掘。,時間序列預測算法,時間序列預測是根據(jù)過去的變化趨勢預測未來的發(fā)展,是數(shù)據(jù)挖掘的重要研究應用
31、方向。,Trend extra-polation,PolyfitExponentialGompertzLogistic,GARCH,ARCH,Moving average,Weighted moving averageDouble moving averageExtended moving average,Exponential smoothing,SingleDoublecubic,Copula,Method-Two
32、 step-Joint-KendallFamily-Frank-Gumbel-Clayton-Gauss,Linear Regress,UnivariateMultivariate,ARIMA,AutoregressMoving AverageARMA,Medium &Long-term,General,Short-term,Trend extra-polation,Trend extra-po
33、lation,Moving average,Trend extra-polation,Trend extra-polation,Moving average,Exponential smoothing,Trend extra-polation,Trend extra-polation,1.5.1 模型庫——預測預警(示例1),計算季節(jié)性指數(shù),,計算每期的中心移動平均值采用中位數(shù),作為概括性衡量標準調(diào)整得到季節(jié)性指數(shù),,去除季節(jié)性影響
34、,,歷史數(shù)據(jù)除以季節(jié)性指數(shù)作為預測模型的輸入,,預測,,通過7類模型對輸入數(shù)據(jù)進行預測選擇精度最高的模型結(jié)果作為輸出,還原季節(jié)性影響,,預測序列乘以季節(jié)性指數(shù),還原季節(jié)性影響,,,,,,,2008,2009,2010,2011,2012,,2013,預測值,注:預測以歷史數(shù)據(jù)為依據(jù),未考慮4G商用、宏觀經(jīng)濟等突發(fā)事件的影響,如計算此因素對KPI的影響,可采用因素分解等模型;預測精度采用1-mean(abs((Pi-Hi)/Hi)衡量。
35、,營運收入預測精度 = 97.59%營運支出預測精度 = 98.88%,圖、營運收入支出的預測結(jié)果,時間序列預測應用-運營收支預測,提綱,概述大數(shù)據(jù)建模分析算法和應用數(shù)據(jù)挖掘算法簡介深度學習算法簡介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,深度學習的概念,2024/3/23,深度學習是一種特征學習方法,把原始數(shù)據(jù)通過一些簡單的但是非線性的模型轉(zhuǎn)變成為更高層次的,更加抽象的表達。深度學習的實質(zhì),是通過構(gòu)建具有很多隱層的機器學習模
36、型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性?!吧疃饶P汀笔鞘侄?,“特征學習”是目的。?多層神經(jīng)網(wǎng)絡:模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層具有超強的泛化能力,非常復雜的函數(shù)也可以被學習,更利于發(fā)掘海量數(shù)據(jù)中蘊藏的豐富信息自動學習特征:各層的特征不是人工設計的,而是從數(shù)據(jù)本身中學到的同過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,使分類或預測更加容易,,傳統(tǒng)神經(jīng)網(wǎng)絡:一般
37、只有兩三層使用BP算法訓練特征選取困難比較容易過擬合,參數(shù)比較難tune層次比較少的情況下效果并不比其它方法如SVM等更優(yōu),深度神經(jīng)網(wǎng)絡:大于5層更強大的擬合能力有效的訓練方法GPU/多核CPU大規(guī)模數(shù)據(jù)集,深度學習的起源和發(fā)展,2024/3/23,深度學習起源于人工智能和機器學習的研究:從20世紀50年代到70年代初,人工智能研究處于“推理期”,目標是給機器賦予邏輯推理能力,但人們逐漸認識到,僅具有邏輯推理能力無法
38、實現(xiàn)人工智能的,必須使機器擁有知識20世紀70年代中期開始,人工智能進入“知識期”,人們基于邏輯知識表示、通過領(lǐng)域知識獲取來實現(xiàn)專家系統(tǒng)。但是,專家系統(tǒng)面臨“知識工程瓶頸”,必須使機器自主學習知識20世紀80年代機器學習逐步成為人工智能研究領(lǐng)域的主流方向1980年代末期,用于人工神經(jīng)網(wǎng)絡的反向傳播算法(Back Propagation算法)的發(fā)明,掀起了機器學習熱潮,各種機器學習算法在90年代大量涌現(xiàn),其中包括卷積神經(jīng)網(wǎng)絡等深度學
39、習的雛形2000年以來隨著互聯(lián)網(wǎng)的高速發(fā)展,對大數(shù)據(jù)的智能化分析和預測產(chǎn)生了巨大需求,淺層學習模型在互聯(lián)網(wǎng)應用上獲得了巨大成功。最成功的應用包括搜索廣告系統(tǒng)的廣告點擊率CTR預估、網(wǎng)頁搜索排序、垃圾郵件過濾系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)等,但是神經(jīng)網(wǎng)絡模型基本被冷落,深度學習的起源和發(fā)展,2024/3/23,2006年,加拿大多倫多大學教授Geoffrey Hinton在《科學》上發(fā)表論文提出:1. 具有很多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征
40、學習能力,學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2. 深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過“逐層初始化”(Layer-wise Pre-training)來有效克服,從而開啟了深度學習在學術(shù)界和工業(yè)界的浪潮目前,深度學習的理論研究還基本處于起步階段,但在應用領(lǐng)域已顯現(xiàn)出巨大能量2011年以來,微軟研究院和Google的語音識別研究人員先后采用DNN技術(shù)降低語音識別錯誤率20%~30%,是語音識別領(lǐng)域十多年來最大
41、的突破性進展2012年開始,DNN技術(shù)在圖像識別領(lǐng)域取得驚人的效果,2013開始ImageNet大賽排名前列的算法都是自行學習特征的深度學習算法,在2015年多個算法擊敗了人類2016年3月,AlphaGO在五番棋中4:1絕對優(yōu)勢擊敗李世石九段,一直以來被視作Mission Impossible的圍棋被深度學習所征服,ImageNet競賽,2024/3/23,ImageNet提供的數(shù)據(jù)集包含約120萬張訓練圖像、5萬張驗證圖像和10
42、萬張測試圖像,目標是將圖像分為1000個不同的類別。,2015年2月,微軟在ImageNet 2012分類數(shù)據(jù)集中的錯誤率已降低至4.94%隨后,google將錯誤率降至4.82%2015年5月,百度宣布錯誤率降至4.58%百度使用的超級計算機Minwa配備72個CPU處理器和144個GPU處理器,卷積神經(jīng)網(wǎng)絡 Convolutional Neural Networks,CNN是第一個真正成功訓練多層網(wǎng)絡結(jié)構(gòu)的學習算法。它利用空間
43、關(guān)系減少需要學習的參數(shù)數(shù)目,以提高一般前向BP算法的訓練性能。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶?,每層通過一個數(shù)字濾波器去獲得觀測數(shù)據(jù)的最顯著的特征。CNN能夠提取對平移、縮放和旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征,在圖像處理、語音處理等領(lǐng)域得到了廣泛而深入的應用。CNN使用局部鏈接和權(quán)值共享極大降低了模型的參數(shù)數(shù)量,?200x200的圖像?400,000個隱層節(jié)點?200
44、x200x400000=160億個參數(shù)?深度神經(jīng)網(wǎng)絡參數(shù)更多 參數(shù)太多 需要海量訓練數(shù)據(jù),? 200x200的圖像?10x10局部(感受野)?400,000個隱層單元?10x10x400000=4千萬個參數(shù) 模擬了神經(jīng)細胞生理機制 缺少空間不變性,局部鏈接,200x200的圖像?10個10x10的卷積核?400,000個隱層單元?10x10x10=1000個參數(shù) 每個卷積核,反
45、映了某種局部的模式,用不同的核卷積圖像就得到對圖像的不同特征,權(quán)值共享,,,Aij=Σklwklxi+k,j+l,全鏈接,卷積神經(jīng)網(wǎng)絡 Convolutional Neural Networks,受Hubel和Wiesel對視皮層細胞的研究啟發(fā)簡單細胞檢測局部特征復雜細胞融合感受野內(nèi)簡單細胞的輸出,CNN深度學習模型由多核卷積和池化亞采樣兩個基本步驟交替構(gòu)成。,一個CNN模型的示例,在每一個位置(patch)檢測多個模式出現(xiàn)的強度
46、多個Feature Maps上對應同一個patch的響應構(gòu)成了那個patch的特征向量,,卷積神經(jīng)網(wǎng)絡到底學到了什么,2024/3/23,具體復雜,抽象簡單,,卷積神經(jīng)網(wǎng)絡為什么有效,2024/3/23,具體復雜,抽象簡單,,AlphaGo探秘,2024/3/23,理想:評價函數(shù)是求解Perfect Information Games的核心:V*(S) 現(xiàn)實:搜索空間太大,模型計算量太大,無法遍歷求解所有可能下法,
47、無法得到完美的評價函數(shù)方案:縮減搜索空間!從深度、廣度、還有概率(手氣)三方面入手深度——近似評價函數(shù)Value: V*(S) 的一個近似,輸出的不是勝負結(jié)果而是勝率,若干步后停止廣度——策略函數(shù)Policy:預測對手落子,減少不必要的搜索范圍概率——蒙特卡羅搜索樹(MCTS):根據(jù)概率搜索收益更新勝率,在有限選項中計算最佳解,兩周前,AlphaGo以4:1擊敗李世石九段震驚了全世界。雖然深藍早在1997年就擊敗了國際象棋世界大
48、師,雖然理論上圍棋這種Perfect Information Games遲早會被“電腦”統(tǒng)治早已成為大家的共識,無人預計圍棋頂級高手竟然會在今年就拜于“電腦”之“手”。因為圍棋的搜索空間約為250^150(~10^360)遠遠大于國際象棋的35^80(~10^124)。,“電腦”是怎樣下棋的?,MCTS,AlphaGo探秘,2024/3/23,AlphaGo是深度學習創(chuàng)造的奇跡。 AlphaGo和前輩們比較起來,表面上實在沒有
49、多少區(qū)別,它的核心三大件還是評價函數(shù)、策略函數(shù)和MCTS,但是前輩們的評價函數(shù)和策略函數(shù)都是基于線性組合的淺層模型AlphaGo本質(zhì)上就是一個深度學習的神經(jīng)網(wǎng)絡,AlphaGo將圍棋棋局視為19×19的圖片,策略函數(shù)和評價函數(shù)都使用了卷積神經(jīng)網(wǎng)絡模型(14層),卷積核為5×5,并先后使用監(jiān)督學習和強化學習進行訓練。,AlphaGo運行參數(shù):異步的多線程MCTS搜索,在CPU執(zhí)行搜索,在GPU執(zhí)行評價網(wǎng)絡和策略網(wǎng)絡
50、的計算. 單機版AlphaGo :40線程,48CPUs, 8 GPUs集群版AlphaGo: 40線程,1202CPUs, 176 GPUs,關(guān)于深度學習和人工智能,AlphaGo的意義AlphaGo取得了巨大成就,但其基本機制并沒有什么顛覆性的東西AlphaGo透過深度學習能夠掌握更抽象的概念,但是計算機還是沒有自我意識與思考深度學習的局限在語音和圖像識別方面的超人能力預示深度學習將會成為解鎖通用人工智能的那把鑰匙的一部
51、分,但不是全部深度學習算法缺乏聯(lián)想和推理能力,對信息處理的效率與人腦仍然有質(zhì)的差距目前,包括深度學習的各種機器學習算法只有空間的概念,沒有真正的時間的概念,而常識是與時間密切相關(guān)的,人工智能必須要有時間的概念、記憶關(guān)聯(lián)的能力才能進一步超越人類人工智能的潛在風險全知全能的存在將嚴重沖擊人類社會的現(xiàn)有組織結(jié)構(gòu)人類可能永遠無法理解人工智能,2024/3/23,人工智能就像一列火車,它臨近時你聽到了轟隆隆的聲音,你在不斷期待著它的到來
52、。他終于到了,一閃而過,隨后便遠遠地把你拋在身后——王小川,提綱,概述大數(shù)據(jù)建模分析算法和應用數(shù)據(jù)挖掘算法簡介深度學習算法簡介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,40,Mahout算法庫,提供三方面的可擴展性,面向大數(shù)據(jù)的可擴展性,Mahout中的核心算法如聚類、分類、協(xié)同過濾等架構(gòu)在Hadoop框架下,部分算法實現(xiàn)了細粒度的并行化,面向商業(yè)的可擴展性,開發(fā)人員在 Apache 許可下免費使用。也可以通過獲得商業(yè)許
53、可,用于商用,面向開發(fā)社區(qū)的可擴展性,Mahout的宗旨是構(gòu)建一個活躍的、快速響應的、多元性的開發(fā)者社區(qū),討論項目本身及應用,,Classification:分類算法Clustering:聚類算法Pattern Mining:模式挖掘Regression:回歸算法Dimension reduction:降維算法Evolutionary Algorithms:進化算法Collaborative Filtering:協(xié)同過濾算法
54、Vector Similarity:向量相似度計算,已實現(xiàn)基于Hadoop的數(shù)據(jù)挖掘/機器學習算法,Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供大量的可擴展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn)。由于Mahout是Hadoop 生態(tài)系統(tǒng)的標準算法庫,二者結(jié)合緊密,Mahout算法可以有效地應用到Hadoop集群。,41,Mahout算法庫,2015.4.11Mahout發(fā)布0.1
55、0.0版本,帶來兩點很重要的變化一個全新的數(shù)學環(huán)境Samsara Matlab風格,可基于Spark運行未來轉(zhuǎn)向Scala+Spark,所有算法將基于Scala語言重構(gòu)Scala特點:函數(shù)式編程:Scala是函數(shù)式編程語言,函數(shù)可以獨立存在,支持純函數(shù)Actor 并行模型,解放死鎖代碼量顯著降低,JAVA的1/5-1/2Spark的優(yōu)點:速度:DAG(Directed Acyclic Graph)、線程模型的任務調(diào)度
56、模式:更好支持迭代算法RDD內(nèi)存計算:基于內(nèi)存共享數(shù)據(jù),數(shù)據(jù)控制更靈活一棧式處理batch、Ad-hoc、Streaming、Graph等各種類型的業(yè)務未來Mahout三大組件Samsara+Scala/Spark算法+MR算法,Spark MLlib,2024/3/23,MLlib是基于spark之上算法組件,基于spark平臺來實現(xiàn),主要的機器學習的算法目前在MLlib中都已經(jīng)提供了,包括分類回歸、聚類、關(guān)聯(lián)規(guī)則、推薦、降
57、維、優(yōu)化、特征抽取篩選、用于特征預處理的數(shù)理統(tǒng)計方法,以及算法評測框架。Mllib提供了Java, Scala, Python, and SparkR語言接口可以應用于HDFS、HBase等Hadoop數(shù)據(jù)源,Theano,2024/3/23,Theano是一個Python庫,專門用于定義、優(yōu)化、求值數(shù)學表達式,效率高,適用于多維數(shù)組。雖然并不是為深度學習而生,它可以實現(xiàn)各種各樣的數(shù)學抽象,但Theano提供的數(shù)學計算方面的特性使得
58、編寫深度學習模型更加容易,因此在深度學習的研究和應用領(lǐng)域得到了廣泛的使用。提供透明的GPU應用接口,充分利用GPU浮點計算和矩陣運算能力有助于加速深度學習,浮點運算相對CPU實現(xiàn)140倍性能提升研究人員基于Theano,開發(fā)了為數(shù)眾多的專門的深度學習的算法包,使得深度學習應用的開發(fā)更加簡便Keras:簡約的、高度模塊化的神經(jīng)網(wǎng)絡庫,支持卷積網(wǎng)絡和遞歸網(wǎng)絡,同時支持GPU和CPU運算Lasagne:易于使用和擴展的機器學習庫,重
59、點集中在前饋神經(jīng)網(wǎng)絡Nolearn:兼容Scikit-learn庫APINeuroLab:類似Matlabapi的神經(jīng)網(wǎng)絡庫,包含遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)實現(xiàn)的不同變體,提綱,背景概述大數(shù)據(jù)建模分析算法和應用數(shù)據(jù)挖掘算法簡介深度學習算法簡介大數(shù)據(jù)分析工具關(guān)于網(wǎng)管大數(shù)據(jù)分析的思考,海量O域數(shù)據(jù)蘊含無窮的應用潛能,2024/3/23,中國移動數(shù)據(jù)分布在B/O/M域等IT系統(tǒng)、各基
60、地/專業(yè)公司業(yè)務平臺中,截至2015年底,中國移動全網(wǎng)數(shù)據(jù)總量規(guī)模約137PB,預計到2016年底,中國移動全網(wǎng)數(shù)據(jù)總量規(guī)模約210PB。其中O域數(shù)據(jù)占比最大,包括DPI、信令xDR、MR、OMC等眾多數(shù)據(jù)來源,預計2016年底,O域數(shù)據(jù)存量將達到176PB,占中國移動大數(shù)據(jù)存量的85%。DPI數(shù)據(jù)是中國移動大數(shù)據(jù)最主要來源,其日增量約為6816TB,占當前中國移動數(shù)據(jù)增量的94%。浩瀚無邊的O域數(shù)據(jù)為大數(shù)據(jù)分析應用提供了無窮無盡
61、的可能,為了充分挖掘其中的價值,大數(shù)據(jù)建模分析將成為最重要的手段,在未來發(fā)揮極為重要的作用。,DPI貫通網(wǎng)絡各個專業(yè),蘊含了網(wǎng)絡、用戶、市場多個維度的豐富信息。,O域大數(shù)據(jù)分析的挑戰(zhàn)和思路,2024/3/23,1,2,3,O域大數(shù)據(jù)是一座多礦種共生的高價值富礦,但開采、提煉和應用的難度不低,需要投入大量的工作和努力,才能真正充分發(fā)掘其中的價值。,Devops促成大數(shù)據(jù)應用百花齊放,2024/3/23,從2006年Hinton教授發(fā)表深度
62、學習革命性的論文,到深度學習模型真正在產(chǎn)業(yè)界得到認可和應用,耗費了學術(shù)界和業(yè)界頂級專家7年的時間,并最終在近兩年創(chuàng)造了舉世矚目的成績。O域大數(shù)據(jù)建模分析挑戰(zhàn)很大,但價值也很大,是實踐Devops戰(zhàn)略轉(zhuǎn)型和自主研發(fā)的重要方向,是未來中國移動的自主核心競爭力關(guān)鍵構(gòu)成。歡迎對大數(shù)據(jù)分析應用感興趣的同事參加網(wǎng)管支撐處組織的技術(shù)沙龍活動,大家共同學習,共同進步!請郵件聯(lián)系:劉豫 liuyu@chinamobile.com,謝謝,2024
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- javascript_深度剖析(從入門到精通)
- java學習從入門到精通
- 從傳統(tǒng)媒體到全媒體的深度探索
- [學習]方程1從算式到方程
- 閉環(huán)從需求到數(shù)據(jù)到改進,在產(chǎn)品上精益求精
- 向騰訊學習深度挖掘用戶價值鏈
- 數(shù)據(jù)挖掘?qū)eb訪問日志的深度分析.pdf
- 機器學習與數(shù)據(jù)挖掘-drivehq
- 從《語言論》到語言學習
- 模具設計從學習入門到精通
- [學習]個人的成功-從依賴到獨立
- 企業(yè)大學從個人學習到組織學習
- 企業(yè)大學從個人學習到組織學習
- 從數(shù)據(jù)挖掘到知識產(chǎn)生惠普知識管理的一個實例員工忠誠度分析
- 深度挖掘客戶需求
- 汽車半導體行業(yè)深度從行業(yè)發(fā)展到量價分析
- 從學習型組織到教導型組織
- 向騰訊學習從家文化到球隊文化
- 從邊緣到主流 從弱項到大項
- 深度學習在文本挖掘中的應用研究.pdf
評論
0/150
提交評論