2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,,BIG DATA,大數(shù)據(jù)技術(shù)與經(jīng)驗(yàn)分享,2017.2.15,,,,,目錄,05,大數(shù)據(jù)計(jì)算與分析研判,04,大數(shù)據(jù)存儲(chǔ)與管理,06,大數(shù)據(jù)項(xiàng)目建設(shè)經(jīng)驗(yàn),02,大數(shù)據(jù)概述,01,現(xiàn)狀與問(wèn)題,03,大數(shù)據(jù)采集與處理,PPT模板:www.1ppt.com/moban/ PPT素材:www.1ppt.com/sucai/PPT背景:www.1ppt.com/beijing/

2、 PPT圖表:www.1ppt.com/tubiao/ PPT下載:www.1ppt.com/xiazai/ PPT教程: www.1ppt.com/powerpoint/ 資料下載:www.1ppt.com/ziliao/ 范文下載:www.1ppt.com/fanwen/ 試卷下載:www.1ppt.co

3、m/shiti/ 教案下載:www.1ppt.com/jiaoan/ PPT論壇:www.1ppt.cn PPT課件:www.1ppt.com/kejian/ 語(yǔ)文課件:www.1ppt.com/kejian/yuwen/ 數(shù)學(xué)課件:www.1ppt.com/kejian/shuxue/

4、英語(yǔ)課件:www.1ppt.com/kejian/yingyu/ 美術(shù)課件:www.1ppt.com/kejian/meishu/ 科學(xué)課件:www.1ppt.com/kejian/kexue/ 物理課件:www.1ppt.com/kejian/wuli/ 化學(xué)課件:www.1ppt.com/kejian/huaxue/ 生物課件:www.1ppt.com/kejian/shengwu/ 地理課件:www.1pp

5、t.com/kejian/dili/ 歷史課件:www.1ppt.com/kejian/lishi/,,,01,當(dāng)前信息化現(xiàn)狀與問(wèn)題,,BIG DATA,,1.1,用戶使用方面,,查詢模式固化,01,,查詢操作復(fù)雜,02,,查詢效率低,03,,結(jié)果不準(zhǔn)確,04,,結(jié)果不全面,05,缺少一個(gè)簡(jiǎn)便、高效、準(zhǔn)確的在線檢索工具!,1.2,應(yīng)用建設(shè)方面,交管,警綜,戶政,出入境,……,,,,,,數(shù)據(jù)源,基礎(chǔ)設(shè)施,部級(jí)系統(tǒng),省級(jí)系

6、統(tǒng),市級(jí)系統(tǒng),區(qū)級(jí)系統(tǒng),業(yè)務(wù)系統(tǒng),系統(tǒng)多了,資源分散,點(diǎn)對(duì)點(diǎn)交互,重復(fù)建設(shè),共享困難,重復(fù)建設(shè)現(xiàn)象突出!信息如何有效共享?,1.3,數(shù)據(jù)的管理與應(yīng)用方面,,結(jié)構(gòu)化數(shù)據(jù),……,圖像,音頻,視頻,非結(jié)構(gòu)化信息的飛速增長(zhǎng)為存儲(chǔ)帶來(lái)巨大壓力,對(duì)非結(jié)構(gòu)化信息的利用缺乏有效手段,,矛盾,巨大的復(fù)雜的數(shù)據(jù)資源怎么用起來(lái)?,,,02,大數(shù)據(jù)技術(shù)概述,,BIG DATA,,2.1,,,,,,,,,,,,大數(shù)據(jù)發(fā)展的萌芽期,大數(shù)據(jù)發(fā)展的突破期,大數(shù)據(jù)發(fā)展的

7、孕育期,,發(fā)展歷程,大數(shù)據(jù)不是最近才有的, 數(shù)據(jù)一直存在,只是分析數(shù)據(jù)的技術(shù)近幾年有了革命性的突破!所以,大數(shù)據(jù)也可以稱為一種技術(shù)“大數(shù)據(jù)技術(shù)”,,90年代,,2003年-2006年,2006年-2009年,,2010年-至今,大數(shù)據(jù)發(fā)展的爆發(fā)期,2.2,概述,大數(shù)據(jù)指那些數(shù)據(jù)量特別大、數(shù)據(jù)類(lèi)別特別復(fù)雜的數(shù)據(jù)集,并且這些數(shù)據(jù)沒(méi)有辦法在可容忍的時(shí)間下使用常規(guī)軟件方法完成存儲(chǔ)、管理和處理任務(wù)。,1、大量,2、多樣,3、快速,4、

8、價(jià)值,大數(shù)據(jù),存儲(chǔ)量大TB->PB計(jì)算量大,數(shù)據(jù)增長(zhǎng)快處理速度要求快,數(shù)據(jù)來(lái)源多數(shù)據(jù)類(lèi)型多,商業(yè)價(jià)值如:行為分析、信息挖掘 廣告定投、信息預(yù)測(cè),結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文檔、視頻、照片等,大數(shù)據(jù)不僅僅是“大”,,,2.3,大數(shù)據(jù)的發(fā)展方向,01,02,03,04,這方向最常見(jiàn)的問(wèn)題是數(shù)據(jù)的多源和多樣性,導(dǎo)致數(shù)據(jù)的質(zhì)量存在差異,嚴(yán)重影響到數(shù)據(jù)的可用性。針對(duì)這些問(wèn)題,目前很多公司已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制

9、工具(如IBM的Data Stage),大數(shù)據(jù)采集與預(yù)處理方向,在數(shù)據(jù)量迅速膨脹的同時(shí),還要進(jìn)行深度的數(shù)據(jù)深度分析和挖掘,并且對(duì)自動(dòng)化分析要求越來(lái)越高,越來(lái)越多的大數(shù)據(jù)數(shù)據(jù)分析工具和產(chǎn)品應(yīng)運(yùn)而生,如用于大數(shù)據(jù)挖掘的R Hadoop版、基于MapReduce開(kāi)發(fā)的數(shù)據(jù)挖掘算法等等,大數(shù)據(jù)分析與挖掘方向,這方向最常見(jiàn)的挑戰(zhàn)是存儲(chǔ)規(guī)模大,存儲(chǔ)管理復(fù)雜,需要兼顧結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)相關(guān)

10、技術(shù)的發(fā)展正在有效的解決這些方面的問(wèn)題。,大數(shù)據(jù)存儲(chǔ)與管理方向,由于大數(shù)據(jù)處理多樣性的需求,目前出現(xiàn)了多種典型的計(jì)算模式,包括大數(shù)據(jù)查詢計(jì)算(如Hive)、批處理計(jì)算(如Hadoop MapReduce)、流式計(jì)算(如Storm)、和內(nèi)存計(jì)算(如Hana),而這些計(jì)算模式的組合使用將成為滿足多樣性大數(shù)據(jù)處理和應(yīng)用需求的有效手段。,大數(shù)據(jù)計(jì)算方向,,,03,大數(shù)據(jù)采集與處理,,Big Data,,3.1,大數(shù)據(jù)采集的方式,大數(shù)據(jù)采集就是使

11、用多種技術(shù)或手段 “組合出擊”,將數(shù)據(jù)收集起來(lái)并存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)系統(tǒng)中。根據(jù)數(shù)據(jù)的類(lèi)型常見(jiàn)的采集方式包括一下四種:,,01,數(shù)據(jù)庫(kù)采集,,通過(guò)ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)清洗、轉(zhuǎn)化、整合操作后抽取到大數(shù)據(jù)存儲(chǔ)系統(tǒng),02,文本數(shù)據(jù)采集,,通過(guò)各類(lèi)接口從電子文件中獲取數(shù)據(jù)的過(guò)程??梢詫xt\xml\word\excel\pdf等文件內(nèi)的數(shù)據(jù)提取出來(lái),并以結(jié)構(gòu)化的方式存儲(chǔ)大數(shù)據(jù)存儲(chǔ)系統(tǒng),03,實(shí)時(shí)流式數(shù)據(jù)采集,,實(shí)時(shí)采集

12、物聯(lián)網(wǎng)內(nèi)RFID標(biāo)簽、GPS定位設(shè)備、北斗定位設(shè)備、溫度傳感器等各類(lèi)傳感器的實(shí)時(shí)狀態(tài)信息、位置信息,并以結(jié)構(gòu)化的方式存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)系統(tǒng),04,多媒體數(shù)據(jù)采集,通過(guò)視頻分析技術(shù)、圖形分析技術(shù)將視頻、圖片文件內(nèi)的要素信息提取出來(lái),并以結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)系統(tǒng),3.2,大數(shù)據(jù)采集工具(ETL采集工具),ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程。ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨

13、時(shí)中間層后,進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)中。,Kettle,,開(kāi)源工具純java編寫(xiě),綠色無(wú)需安裝支持Window、Linux、Unix運(yùn)行環(huán)境依賴JDK可視化圖形界面,Informatica PowerCenter,,軟件一次性購(gòu)買(mǎi),但技術(shù)支持按項(xiàng)目收費(fèi)支持Window、Linux、Unix客戶端與服務(wù)端分離可視化圖形界面廣泛支持各類(lèi)結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)源,3.3,大數(shù)據(jù)采集工具(文件數(shù)據(jù)采集),,零散文

14、件(非結(jié)構(gòu)化),快遞、飲食店等員工名單,截獲黑客犯罪人員電腦資料,小區(qū)住戶、租戶登記信息,舊犯罪記錄等文字卷宗,文件篩選,,文件分類(lèi),Excel文件,Word文件,文本文件,PDF文件,內(nèi)容抓取,人員和單位數(shù)據(jù)(結(jié)構(gòu)化),審核入庫(kù),,大數(shù)據(jù)存儲(chǔ)系統(tǒng),由于業(yè)務(wù)特點(diǎn)的不同,開(kāi)源軟件或商業(yè)產(chǎn)品的解決方案針對(duì)性較弱,更傾向于由軟件開(kāi)發(fā)商定制開(kāi)發(fā)采集器,通過(guò)插件的方式擴(kuò)展支持的文件類(lèi)型。,3.4,大數(shù)據(jù)采集工具(實(shí)時(shí)流式數(shù)據(jù)采集),基于多源的

15、實(shí)時(shí)流式數(shù)據(jù)(如:GPS定位信息、北斗定位信息、移動(dòng)定位終端實(shí)時(shí)位置信息、傳感器),提供數(shù)據(jù)接入、存儲(chǔ)、分發(fā)、自動(dòng)識(shí)別、報(bào)警、監(jiān)控等實(shí)時(shí)處理功能。并支持通過(guò)插件的方式擴(kuò)展接入類(lèi)型。,,,車(chē)載終端,手持終端,固定設(shè)備,定位方式,終端支撐,,,,各個(gè)業(yè)務(wù)系統(tǒng),北斗,GPS,WIFI,RFID,基站,網(wǎng)絡(luò),智能終端,,,,04,大數(shù)據(jù)存儲(chǔ)與管理,,Big Data,,4.1,大數(shù)據(jù)存儲(chǔ)方案,大數(shù)據(jù)存儲(chǔ)方案應(yīng)該是根據(jù)數(shù)據(jù)的特點(diǎn)及業(yè)務(wù)需求進(jìn)行“專(zhuān)

16、項(xiàng)治理”,產(chǎn)品和技術(shù)選型應(yīng)該不僅僅局限于1種產(chǎn)品或技術(shù)。一般大數(shù)據(jù)存儲(chǔ)是由多種數(shù)據(jù)存儲(chǔ)方案或技術(shù)組合使用。,1,2,3,4,5,存儲(chǔ)方案,高增長(zhǎng)、海量關(guān)系型數(shù)據(jù)存儲(chǔ)方案(Hbase),海量大個(gè)文件存儲(chǔ)方案(Hadoop HDFS),海量小文件存儲(chǔ)方案( FastDFS),高速緩存方案(Redis),傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)方案(Oracle集群、MySQL集群),4.2,傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)方案,應(yīng)用場(chǎng)景:用于存儲(chǔ)結(jié)構(gòu)化的人員、物品、組織

17、、數(shù)據(jù)字典等數(shù)據(jù)或業(yè)務(wù)關(guān)聯(lián)緊密的事物性數(shù)據(jù)技術(shù)選型:Oracle RAC 或 MySQL集群特 點(diǎn):MPP架構(gòu)、數(shù)據(jù)結(jié)構(gòu)固定、數(shù)據(jù)量相對(duì)較小、安全性及穩(wěn)定性較高,MySQL集群,4.3,高增長(zhǎng)、海量關(guān)系型數(shù)據(jù)存儲(chǔ)方案,應(yīng)用場(chǎng)景:用于存儲(chǔ)數(shù)據(jù)量大且數(shù)據(jù)增長(zhǎng)量較快的數(shù)據(jù)(如:卡口過(guò)車(chē)信息等)技術(shù)選型:HBase集群特 點(diǎn):運(yùn)行在Hadoop之上適合超大數(shù)據(jù)量的寫(xiě)入,數(shù)據(jù)按列存儲(chǔ)、

18、只訪問(wèn)查詢涉及的列-大量降低系統(tǒng)IO,4.4,海量大個(gè)文件存儲(chǔ)方案,應(yīng)用場(chǎng)景:適合存儲(chǔ)、訪問(wèn)、下載大個(gè)文件(通常是指百M(fèi)B、GB、甚至GB大小的文件),如視頻網(wǎng)站類(lèi)應(yīng)用。技術(shù)選型:HDFS 分布式文件系統(tǒng)特 點(diǎn):運(yùn)行于廉價(jià)的商用機(jī)器集群上、多副本、采用了切分存儲(chǔ)的方式,4.5,海量小文件存儲(chǔ)方案,應(yīng)用場(chǎng)景:對(duì)海量小文件進(jìn)行管理,包括:文件存儲(chǔ)、文件同步、文件上傳、文件下載。如:百度文庫(kù)、相冊(cè)網(wǎng)站等應(yīng)用場(chǎng)景技術(shù)選型

19、:FastDFS 分布式文件系統(tǒng)特 點(diǎn):不對(duì)文件進(jìn)行切分存儲(chǔ)、適合小文件存儲(chǔ)、支持線性擴(kuò)容,,,05,大數(shù)據(jù)計(jì)算與分析研判,,Big Data,,5.1,大數(shù)據(jù)計(jì)算,大數(shù)據(jù)計(jì)算的核心思想是:分而治之,把大量的數(shù)據(jù)劃分開(kāi)來(lái),分配給各個(gè)子任務(wù)來(lái)完成。再將結(jié)果合并到一起輸出。,5.1,大數(shù)據(jù)計(jì)算-海量數(shù)據(jù)檢索,智能檢索,檢索結(jié)果以“檔案”形式展示,5.2,大數(shù)據(jù)離線計(jì)算,文本分析和數(shù)據(jù)分類(lèi)、聚類(lèi)對(duì)人力情報(bào)信息通過(guò)文本分析工具

20、進(jìn)行處理,實(shí)現(xiàn)關(guān)鍵詞提取,包括地名、敏感詞語(yǔ)(如6.4事件、老兵、上訪、嗑粉等)、人名、各類(lèi)號(hào)碼等,生成人力情報(bào)關(guān)鍵字庫(kù)(也稱“標(biāo)簽庫(kù)”)。同時(shí)基于關(guān)鍵詞庫(kù),關(guān)聯(lián)分析技術(shù)、聚類(lèi)分析技術(shù),實(shí)現(xiàn)熱點(diǎn)情報(bào)、相似情報(bào)等宏觀分析。文本分析工具文本分析是文本挖掘、信息檢索的一項(xiàng)基本技術(shù),是指對(duì)文本中表示其特征項(xiàng)的“關(guān)鍵詞”自動(dòng)識(shí)別與提取,可以實(shí)現(xiàn)word文檔內(nèi)情報(bào)信息的解析和標(biāo)簽屬性創(chuàng)建。標(biāo)簽庫(kù)建設(shè)熱點(diǎn)情報(bào)分析相似情報(bào)分析,5.3,大數(shù)據(jù)

21、分析研判-人員活動(dòng)分析,人員活動(dòng)分析:根據(jù)關(guān)注人員動(dòng)態(tài)管控的需求,基于系統(tǒng)內(nèi)整合的外部信息(如:公安網(wǎng)實(shí)名制登記信息、出行記錄信息)和內(nèi)部信息(如:情報(bào)線索信息、重點(diǎn)人等信息),通過(guò)定制化分析模型工具,定義相關(guān)的分析模型,通過(guò)分析模型的計(jì)算和運(yùn)行,支持研判的開(kāi)展和應(yīng)用,相關(guān)的分析模型包括但不限于如下:重點(diǎn)人流入預(yù)警重點(diǎn)人流出預(yù)警異常出行記錄分析人員軌跡分析人員關(guān)系分析(社會(huì)關(guān)系、同行、同住、同鄉(xiāng)),5.4,大數(shù)據(jù)分析研判模型

22、-案例1,旅業(yè)數(shù)據(jù)人員入住登記信息,,“跳房”記錄分析,,較短時(shí)間段內(nèi),,有多條開(kāi)房記錄,年輕女性,旅館位置集中,深夜凌晨入住,入住時(shí)間短,,,主要條件,輔助條件,,,涉黃可疑人員名單,定時(shí)生成推送,500萬(wàn)記錄,案件庫(kù)有關(guān)涉黃人員,,準(zhǔn)確率高達(dá)87.8%,涉“黃”人員分析,5.4,大數(shù)據(jù)分析研判模型-案例2,密切度分析,張三,李四,籍貫相同,------,乘坐K1234列車(chē)從南寧至廣州,2014-08-16,登記入住同一出租屋,

23、2015-02-04,出境前往澳門(mén),2015-05-18,密切度4,,,06,大數(shù)據(jù)項(xiàng)目建設(shè)經(jīng)驗(yàn),,Big Data,,6.1,思考一,一是大數(shù)據(jù)思維的演進(jìn)道路,,,從精確性到相似(相關(guān))性起步階段我們追求精確制導(dǎo);單一查詢不是大數(shù)據(jù)的主要應(yīng)用;用大數(shù)據(jù)去揭示規(guī)律,反映客觀事實(shí);從大數(shù)據(jù)中發(fā)現(xiàn)隱含的知識(shí)。,6.2,思考二,二是統(tǒng)籌耦合三種計(jì)算模式,,,因材施用、用其所長(zhǎng)、相輔相成關(guān)系型:結(jié)構(gòu)化程度高,數(shù)據(jù)量不大等;分布式:結(jié)

24、構(gòu)化程度一般,巨量檢索等;大內(nèi)存:數(shù)據(jù)量適中,多變量求解等;不能忽視異構(gòu)數(shù)據(jù)交換工作,6.3,思考三,三是業(yè)務(wù)需求為導(dǎo)向,,,以業(yè)務(wù)需求為導(dǎo)向去設(shè)計(jì)與建設(shè),回到用戶需求,分析日常工作真正所需。技術(shù)是為業(yè)務(wù)服務(wù)的,技術(shù)選型和架構(gòu)決策依賴業(yè)務(wù)規(guī)劃, 離開(kāi)業(yè)務(wù)發(fā)展 的支撐和驅(qū)動(dòng), 技術(shù)走不遠(yuǎn),甚至還會(huì)迷路!前沿技術(shù)總是出現(xiàn)在前沿業(yè)務(wù)領(lǐng)域。,6.4,思考四,四是將對(duì)非結(jié)構(gòu)化的內(nèi)容的管理納入到單位的數(shù)據(jù)管理能力,,,非結(jié)構(gòu)化數(shù)據(jù)一直是單位

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論