2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)與應(yīng)用,目錄,引言 → 電影《點(diǎn)球成金》,基于歷史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同球員特點(diǎn),合理搭配,重新組隊(duì);,打破傳統(tǒng)思維,通過(guò)分析比賽數(shù)據(jù),尋找“性?xún)r(jià)比”最高球員,運(yùn)用數(shù)據(jù)取得成功;,布拉德?皮特主演的《點(diǎn)球成金》是一部美國(guó)奧斯卡獲獎(jiǎng)影片,所講述的是皮特扮演的棒球隊(duì)總經(jīng)理利用計(jì)算機(jī)數(shù)據(jù)分析,對(duì)球隊(duì)進(jìn)行了翻天覆地的改造,讓一家不起眼的小球隊(duì)能夠取得巨大的成功。,數(shù)據(jù)本質(zhì)是生產(chǎn)資料和資產(chǎn),僅供開(kāi)采162年,僅供開(kāi)采45年,僅供

2、開(kāi)采60年,不可再生資源VS數(shù)據(jù),數(shù)據(jù)不再是社會(huì)生產(chǎn)的“副產(chǎn)物”,而是可被二次乃至多次加工的原料,從中可以探索更大價(jià)值,它變成了生產(chǎn)資料。,,數(shù)據(jù)爆炸式增長(zhǎng)(每分鐘……),數(shù)據(jù)資產(chǎn)管理的挑戰(zhàn),數(shù)據(jù)資產(chǎn)管理的挑戰(zhàn),需要不同“看”數(shù)據(jù)的方式,7,可視:結(jié)構(gòu)化資料 15%,未視:半/非結(jié)構(gòu)化數(shù)據(jù) 85%,DB/DW,主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…,10萬(wàn) GB,10萬(wàn) TB,需要更高性?xún)r(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式,8,數(shù)據(jù)庫(kù),數(shù)據(jù)

3、倉(cāng)庫(kù),,,,計(jì)算更快 存儲(chǔ)更省,9,需要不同的數(shù)據(jù)管理策略,,當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺(jué):架構(gòu)只能 scale-up, scale-out 不易處理時(shí)間過(guò)長(zhǎng), time-to-value 受限成本過(guò)高, cost-efficiency 受限,15% 結(jié)構(gòu)化的 DB/DW,,遺憾,殘缺,,,,每天幾百 GB、 幾 TB 的資料,且持續(xù)成長(zhǎng)中,,儲(chǔ)存Storing,在收數(shù)據(jù)的同時(shí)做必要的前置處理 (

4、pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí) (prioritizing),,計(jì)算Processing,如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀,,管理Managing,如何從中挖掘出所關(guān)注事件的 pattern 或 behavior,,分析Analyzing,超越企業(yè)現(xiàn)有 IT 的數(shù)據(jù)解決能量,10,中央政府對(duì)大數(shù)據(jù)的重視程度,11,,目錄,二、什么是大數(shù)據(jù),,一、大數(shù)據(jù)的來(lái)源,,13,Social Media,M

5、achine / Sensor,DOC / Media,Web Clickstream,,Apps,Call Log,Log,什么是數(shù)據(jù)?,半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),3/13/2012,4,什么是大數(shù)據(jù)?,何為大?—數(shù)據(jù)度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB =

6、 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024

7、 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes,3/13/2012,6,什么是大數(shù)據(jù)?,《紅樓夢(mèng)》含標(biāo)點(diǎn)87萬(wàn)字(不含標(biāo)點(diǎn)853509字)每個(gè)漢字占兩個(gè)字節(jié):1漢字=16bit = 2*8位=2bytes1GB 約等于 671部紅樓夢(mèng)1TB 約等于 631,903 部1PB

8、約等于 647,068,911部美國(guó)國(guó)會(huì)圖書(shū)館藏書(shū)(151,785,778冊(cè))(2011年4月:收錄數(shù)據(jù)235TB )中國(guó)國(guó)家圖書(shū)館:2631萬(wàn)冊(cè)1EB = 4000倍 美國(guó)國(guó)會(huì)圖書(shū)館存儲(chǔ)的信息量600美元的硬盤(pán)就可以存儲(chǔ)全世界所有的歌曲MGI估計(jì),全球企業(yè) 2010 年在硬盤(pán)上存儲(chǔ)了超過(guò) 7EB(1EB 等于 10 億 GB)的新數(shù)據(jù),同時(shí),消費(fèi)者在 PC 和筆記本等設(shè)備上存儲(chǔ)了超過(guò) 6EB 新數(shù)據(jù),3/13/

9、2012,7,數(shù)據(jù)沒(méi)有辦法在可容忍的時(shí)間下使用常規(guī)軟件方法完成存儲(chǔ)、管理和處理任務(wù),什么是大數(shù)據(jù)?,大數(shù)據(jù)的解釋,大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)就是“未來(lái)的新石油”。,大數(shù)據(jù)帶來(lái)的思維變革,更好不是因果關(guān)系而是相關(guān)關(guān)系,更多不是隨機(jī)樣本而是全部數(shù)據(jù),,更雜不是精確性而是混雜性,大數(shù)據(jù)帶來(lái)的思維變革(更多),人口大普查全數(shù)據(jù)模式,隨機(jī)采樣樣本模式,

10、大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式,是指在國(guó)家統(tǒng)一規(guī)定的時(shí)間內(nèi),按照統(tǒng)一的方法、統(tǒng)一的項(xiàng)目、統(tǒng)一的調(diào)查表和統(tǒng)一的標(biāo)準(zhǔn)時(shí)點(diǎn),對(duì)全國(guó)人口普遍地、逐戶(hù)逐人地進(jìn)行的一次性調(diào)查登記;主要特點(diǎn)是調(diào)查組織高度集中性,普查對(duì)象的全面完整性;人口大普查耗時(shí)耗費(fèi),一般來(lái)講是十年一次,新中國(guó)成立以來(lái)共進(jìn)行了6次人口大普查;人口大普查是一種典型的全數(shù)據(jù)模式;,大數(shù)據(jù)時(shí)代,小數(shù)據(jù)時(shí)代,大數(shù)據(jù)帶來(lái)的思維變革(更多),人口大普查全數(shù)據(jù)模式,隨機(jī)采樣樣本模式,大數(shù)據(jù)應(yīng)用

11、全數(shù)據(jù)模式,人口大普查是一種耗時(shí)耗費(fèi)的工程,一般是以十年為單位;各國(guó)每年需要進(jìn)行幾百次的小規(guī)模人口調(diào)查,采取隨機(jī)采樣分析的方式,這是一種樣本模式;源于實(shí)用并且很好的創(chuàng)新!隨機(jī)采樣分析是小數(shù)據(jù)時(shí)代的產(chǎn)物;,大數(shù)據(jù)時(shí)代,小數(shù)據(jù)時(shí)代,LOREM IPSUM,Lorem ipsum dolor,大數(shù)據(jù)帶來(lái)的思維變革(更多),人口大普查全數(shù)據(jù)模式,隨機(jī)采樣樣本模式,大數(shù)據(jù)應(yīng)用全數(shù)據(jù)模式,我們已具備了大數(shù)據(jù)的各種技術(shù)能力,思維需要轉(zhuǎn)換

12、到大數(shù)據(jù)的全數(shù)據(jù)模式:樣本=全部;大數(shù)據(jù)不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法;這里的“大”是相對(duì)的——相撲比賽所有數(shù)據(jù)存儲(chǔ)還不需要一個(gè)TB,但是是所有的數(shù)據(jù)!在大數(shù)據(jù)時(shí)代采用隨機(jī)采樣法,就像在汽車(chē)時(shí)代騎馬一樣,雖然特定情況下仍可采樣隨機(jī)采樣法,但是慢慢地我們會(huì)放棄它;,大數(shù)據(jù)時(shí)代,小數(shù)據(jù)時(shí)代,大數(shù)據(jù)帶來(lái)的思維變革(更多),大數(shù)據(jù)帶來(lái)的思維變革(更雜),從皮尺到哈勃望遠(yuǎn)鏡,人類(lèi)一直在追求測(cè)量的精確性,一方面源于對(duì)未知世界的

13、認(rèn)知;一方面也源于收集信息的有限性;,大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效;IBM的機(jī)器翻譯 VS Google的機(jī)器翻譯;紛繁的數(shù)據(jù)越多越好;大數(shù)據(jù)時(shí)代要求我們重新審視數(shù)據(jù)精確性的優(yōu)略;大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無(wú)法實(shí)現(xiàn)精確性;錯(cuò)誤不是大數(shù)據(jù)固有的問(wèn)題,而是一個(gè)需要我們?nèi)ソ鉀Q的問(wèn)題,而且會(huì)將長(zhǎng)期存在;混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑;,大數(shù)據(jù)帶來(lái)的思維變革(更好),Kaggle,一個(gè)為所有人提供數(shù)據(jù)挖掘

14、競(jìng)賽的公司,在一次關(guān)于二手車(chē)的數(shù)據(jù)分析比賽中得到,橙色汽車(chē)有質(zhì)量問(wèn)題的可能性是其它顏色汽車(chē)的一半。為什么?探尋事物的因果關(guān)系是人類(lèi)的本性,但是大數(shù)據(jù)時(shí)代可以做某種程度的妥協(xié),可以只需要關(guān)注“是什么”,而忽略“為什么?”,大數(shù)據(jù)的4V特征,Big Data大數(shù)據(jù),TBPBEB,StreamsReal timeNear timeBatch,StructuredUnstructured Semi-structured

15、All the above,大數(shù)據(jù)的4V特征(Volume),1Bity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,大數(shù)據(jù)的4V特征(Velocity),大數(shù)據(jù)的4V特征(Variety),大數(shù)據(jù)的4V特征(Value),挖掘大數(shù)據(jù)的價(jià)值類(lèi)似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息;價(jià)值密度低,是大數(shù)據(jù)的一個(gè)典型特征;,大數(shù)據(jù)不僅僅是技術(shù),關(guān)鍵是產(chǎn)生價(jià)值可以從各個(gè)層面進(jìn)行優(yōu)化,更要考慮整體,,,,,,,

16、,,,,,,,,,,,,,13,大數(shù)據(jù)商業(yè)價(jià)值,大數(shù)據(jù)商業(yè)價(jià)值---大數(shù)據(jù)為“未來(lái)的新石油”,32,2013年,世界上存儲(chǔ)的數(shù)據(jù)預(yù)計(jì)能達(dá)到約1.2澤(約12億TB)字節(jié),如果把這些數(shù)據(jù)全部印刷成書(shū),這些書(shū)可以覆蓋整個(gè)美國(guó)52次,如果將之存儲(chǔ)于標(biāo)準(zhǔn)的光盤(pán),這些光盤(pán)可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家戰(zhàn)略。奧巴馬政府甚至將大數(shù)據(jù)定義為“未來(lái)

17、的新石油”。,大數(shù)據(jù)商業(yè)價(jià)值---企業(yè)經(jīng)營(yíng)決策,33,某商店賣(mài)牛奶,通過(guò)數(shù)據(jù)分析,知道在本店買(mǎi)了牛奶的顧客以后常常會(huì)再去另一店買(mǎi)包子,人數(shù)還不少,那么這家店就可以考慮與包子店合作,或直接在店里出售包子。,,大數(shù)據(jù)商業(yè)價(jià)值---個(gè)性化營(yíng)銷(xiāo),34,銀行與客戶(hù)的交流渠道進(jìn)行了整合,只要某個(gè)客戶(hù)在網(wǎng)上點(diǎn)擊查詢(xún)了有關(guān)房貸利率的信息,系統(tǒng)就會(huì)提示呼叫中心在電話(huà)交流時(shí)推薦房貸產(chǎn)品,如果發(fā)現(xiàn)顧客確實(shí)對(duì)此感興趣,銷(xiāo)售部門(mén)就會(huì)發(fā)送推介信息給客戶(hù),如果這位顧

18、客到銀行網(wǎng)點(diǎn)辦事,業(yè)務(wù)人員就會(huì)詳細(xì)介紹房貸產(chǎn)品,開(kāi)始只有少量的線(xiàn)索,但通過(guò)多渠道的與顧客交互接觸,在這個(gè)過(guò)程中,令顧客體驗(yàn)了銀行精準(zhǔn)、體貼的服務(wù),其結(jié)果是營(yíng)業(yè)收入大為增加,成本大幅降低,,大數(shù)據(jù)商業(yè)價(jià)值---互聯(lián)網(wǎng)金融的核心是大數(shù)據(jù),35,互聯(lián)網(wǎng)金融并非簡(jiǎn)單的把傳統(tǒng)金融業(yè)務(wù)搬到網(wǎng)上去,而是充分利用大數(shù)據(jù)來(lái)顛覆銀企之間信息不對(duì)稱(chēng)的問(wèn)題。數(shù)據(jù)是一個(gè)平臺(tái),因?yàn)閿?shù)據(jù)是新產(chǎn)品和新商業(yè)模式的基石。推動(dòng)互聯(lián)網(wǎng)金融發(fā)展的核心正是大數(shù)據(jù)的價(jià)值。,

19、大數(shù)據(jù)商業(yè)價(jià)值---所有互聯(lián)網(wǎng)公司都將是大數(shù)據(jù)公司,36,大數(shù)據(jù)商業(yè)價(jià)值---數(shù)據(jù)列入企業(yè)資產(chǎn)負(fù)債表只是時(shí)間問(wèn)題,37,用資產(chǎn)的要素來(lái)盤(pán)點(diǎn)一下什么樣的數(shù)據(jù)符合資產(chǎn)的要求:1,從擁有和控制的角度來(lái)看,數(shù)據(jù)可以分為第一方數(shù)據(jù)、第二方數(shù)據(jù)和第三方數(shù)據(jù)。2,對(duì)于數(shù)據(jù)資產(chǎn)的貨幣計(jì)量,可以參照無(wú)形資產(chǎn)的計(jì)量規(guī)則。3,目前直接利用數(shù)據(jù)為企業(yè)帶來(lái)經(jīng)濟(jì)利益的方法主要有數(shù)據(jù)租售、信息租售、數(shù)據(jù)使能三種模式。4,要實(shí)現(xiàn)數(shù)據(jù)的保值增值,就要從擴(kuò)

20、大數(shù)據(jù)規(guī)模,提高數(shù)據(jù)活性,提升收集運(yùn)用數(shù)據(jù)的能力,大數(shù)據(jù)改變生活,38,。,大數(shù)據(jù)對(duì)政府、金融機(jī)構(gòu)、企業(yè)來(lái)說(shuō),象空氣一樣不可或缺!,軟件是大數(shù)據(jù)的引擎,和數(shù)據(jù)中心(Data Center) 一樣,軟件是大數(shù)據(jù)的驅(qū)動(dòng)力.軟件改變世界!,IBM C&P Industry,需求海量數(shù)據(jù)存儲(chǔ)技術(shù)實(shí)時(shí)數(shù)據(jù)處理技術(shù)數(shù)據(jù)高速傳輸技術(shù)搜索技術(shù),描述分布式文件系統(tǒng)流計(jì)算引擎

21、服務(wù)器/存儲(chǔ)間高速通信文本檢索、智能搜索、實(shí)時(shí)搜索,技術(shù)Hadoop,x86/MPPMap ReduceStreaming DataInfini BandEnterpriseSearch,數(shù)據(jù)分析技術(shù),Text Analytics Engine 自然語(yǔ)言處理、文本情感分析、Visual Data Modeling 機(jī)器學(xué)習(xí)、聚類(lèi)關(guān)聯(lián)、數(shù)據(jù)模型

22、第 10 頁(yè),大數(shù)據(jù)涉及的關(guān)鍵技術(shù),,,,基于SQL語(yǔ)言: 面對(duì)OLAP的傳統(tǒng)行和列,不基于SQL或map-reduce的: 由谷歌率先發(fā)起,數(shù)據(jù)流: 基于運(yùn)行商數(shù)據(jù)直接生成任意圖形,,,,,,數(shù)據(jù)入口/匯聚,數(shù)據(jù)平臺(tái),分析,,,,,傳統(tǒng)交付模式 - 單片或基于設(shè)備的解決方案,,云: 能夠充分利用物理設(shè)施的彈性,以實(shí)現(xiàn)處理快速增長(zhǎng)數(shù)據(jù)的能力,“數(shù)據(jù)庫(kù)將演變成一個(gè)虛擬的,基于云計(jì)算,超級(jí)可擴(kuò)展的分布式平臺(tái)。”- F

23、orrester analyst Jim Kobielus,大數(shù)據(jù)涉及的關(guān)鍵技術(shù),,,,Copyright © 2012, Oracle and/or its affiliates. All rights reserved.,11,大數(shù)據(jù)涉及的關(guān)鍵技術(shù),,大數(shù)據(jù)的安全威脅,,大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅,大數(shù)據(jù)存儲(chǔ)安全威脅,隱私泄露問(wèn)題,數(shù)據(jù)訪(fǎng)問(wèn)安全威脅,針對(duì)大數(shù)據(jù)的高級(jí)持續(xù)性攻擊,其他安全威脅,大數(shù)據(jù)挑戰(zhàn),,目錄,三、大數(shù)據(jù)的應(yīng)用

24、,,一、大數(shù)據(jù)的來(lái)源,,,,,,大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略,大數(shù)據(jù)建設(shè)目標(biāo),大數(shù)據(jù)架構(gòu)設(shè)計(jì),大數(shù)據(jù)實(shí)施,大數(shù)據(jù)運(yùn)維,企業(yè)戰(zhàn)略目標(biāo)業(yè)務(wù)目標(biāo)業(yè)務(wù)模式,大數(shù)據(jù)目標(biāo)服務(wù)對(duì)象服務(wù)模式應(yīng)用場(chǎng)景,大數(shù)據(jù)服務(wù)定義大數(shù)據(jù)信息模型大數(shù)據(jù)管理定義技術(shù)選擇,容量規(guī)劃安裝、配置驗(yàn)收測(cè)試系統(tǒng)上線(xiàn),大數(shù)據(jù)服務(wù)管理系統(tǒng)監(jiān)控資源調(diào)度

25、生命周期管理,服務(wù)性能管理,驗(yàn)證測(cè)試大數(shù)據(jù)持續(xù)改進(jìn),架構(gòu)優(yōu)化,技術(shù)升級(jí),服務(wù)改進(jìn),企業(yè)大數(shù)據(jù)建設(shè)方法,逐步擴(kuò)展現(xiàn)有架構(gòu),滿(mǎn)足大數(shù)據(jù)要求:第 1 步:更深入地分析當(dāng)前數(shù)據(jù)第 2 步:針對(duì)數(shù)據(jù)多樣性和數(shù)據(jù)量進(jìn)行設(shè)計(jì)第 3 步:針對(duì)高數(shù)據(jù)速度設(shè)計(jì)第 4 步:發(fā)現(xiàn)新模式,提高,業(yè)務(wù)價(jià)值,企業(yè)大數(shù)據(jù)建設(shè)方法,信息分析,信息供應(yīng),(In-Database),數(shù)據(jù)挖掘,文本挖掘,統(tǒng)計(jì)分析,語(yǔ)義分析,空間地理分析,In

26、-DB,MapReduce,說(shuō)明性分析預(yù)測(cè)分析,報(bào)告,儀表板,用戶(hù)層,最終客戶(hù),供應(yīng)商,市場(chǎng)營(yíng)銷(xiāo),管理人員,客戶(hù)服務(wù),業(yè)務(wù)流程,合作伙伴,應(yīng)用系統(tǒng),數(shù)據(jù)沙箱(Sandbox),Distributed File Systems,NoSQL,Relational,Data Streams,文檔,多媒體,網(wǎng)絡(luò)和社交媒體,機(jī)器生成,大數(shù)據(jù)處理,大數(shù)據(jù)處理&發(fā)現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)&流數(shù)據(jù)處理,信息發(fā)現(xiàn),數(shù)據(jù)轉(zhuǎn)化,存儲(chǔ)層

27、數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù)海量非結(jié)構(gòu)化&結(jié)構(gòu)化數(shù)據(jù)訪(fǎng)問(wèn),轉(zhuǎn)換和存儲(chǔ),分析主題庫(kù)(數(shù)據(jù)集市),Faceted Unstructured,Spatial/Relational,企業(yè)部門(mén)應(yīng)用,企業(yè)大數(shù)據(jù)建設(shè)方法,,,目錄,一、大數(shù)據(jù)的來(lái)源,四、成功案例,商品零售大數(shù)據(jù),49,此事經(jīng)被《紐約時(shí)報(bào)》報(bào)道后,塔吉特“大數(shù)據(jù)”的巨大威力轟動(dòng)全美在美國(guó),有一位父親怒氣沖沖地跑到塔吉特賣(mài)場(chǎng),質(zhì)問(wèn)為何將帶有嬰兒用品優(yōu)惠券的廣告郵件,寄送

28、給他正在念高中的女兒?然而后來(lái)證實(shí),他的女兒果真懷孕了。這名女孩搜尋商品的關(guān)鍵詞,以及在社交網(wǎng)站所顯露的行為軌跡,使沃爾瑪捕捉到了她的懷孕信息。模型發(fā)現(xiàn),許多孕婦在第2個(gè)妊娠期的開(kāi)始會(huì)買(mǎi)許多大包裝的無(wú)香味護(hù)手霜;在懷孕的最初20周大量購(gòu)買(mǎi)補(bǔ)充鈣、鎂、鋅的善存片之類(lèi)的保健品。最后塔吉特選出了25種典型商品的消費(fèi)數(shù)據(jù)構(gòu)建了“懷孕預(yù)測(cè)指數(shù)”,通過(guò)這個(gè)指數(shù),Target能夠在很小的誤差范圍內(nèi)預(yù)測(cè)到顧客的懷孕情況,因此Target就能

29、早早地把孕婦優(yōu)惠廣告寄發(fā)給顧客。,消費(fèi)大數(shù)據(jù),50,亞馬遜 “預(yù)測(cè)式發(fā)貨”的新專(zhuān)利,可以通過(guò)對(duì)用戶(hù)數(shù)據(jù)的分析,在他們還沒(méi)有下單購(gòu)物前,提前發(fā)出包裹。這項(xiàng)技術(shù)可以縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店的沖動(dòng)。從下單到收貨之間的時(shí)間延遲可能會(huì)降低人們的購(gòu)物意愿,導(dǎo)致他們放棄網(wǎng)上購(gòu)物。所以,亞馬遜可能會(huì)根據(jù)之前的訂單和其他因素,預(yù)測(cè)用戶(hù)的購(gòu)物習(xí)慣,從而在他們實(shí)際下單前便將包裹發(fā)出。根據(jù)該專(zhuān)利文件,雖然包裹會(huì)提前從亞馬遜發(fā)出,但在用戶(hù)正

30、式下單前,這些包裹仍會(huì)暫存在快遞公司的轉(zhuǎn)運(yùn)中心或卡車(chē)?yán)?。亞馬遜為了決定要運(yùn)送哪些貨物,亞馬遜可能會(huì)參考之前的訂單、商品搜索記錄、愿望清單、購(gòu)物車(chē),甚至包括用戶(hù)的鼠標(biāo)在某件商品上懸停的時(shí)間。,,大數(shù)據(jù)+政治,51,,在籌備過(guò)程中,奧巴馬背后的數(shù)據(jù)分析團(tuán)隊(duì)一直在收集、存儲(chǔ)和分析選民數(shù)據(jù)。在這次的大選中,奧巴馬競(jìng)選陣營(yíng)的高級(jí)助理們決定將參考這一團(tuán)隊(duì)所得出的數(shù)據(jù)分析結(jié)果來(lái)制定下一步的競(jìng)選方案。利用在競(jìng)選中可獲得的選民行動(dòng)、行為、支持偏向

31、方面的大量數(shù)據(jù)。比如,在東海岸找到一位對(duì)女性群體具備相同號(hào)召力的名人,從而復(fù)制“克魯尼效應(yīng)”并為奧巴馬籌集競(jìng)選資金?!癟witter的政治指數(shù)”提供了一個(gè)衡量社會(huì)化媒體平臺(tái)的用戶(hù)如何評(píng)價(jià)候選人的方式。奧巴馬積極的情緒指數(shù)是59,而羅姆尼的只有53,證監(jiān)會(huì)大數(shù)據(jù),52,回顧“老鼠倉(cāng)”的查處過(guò)程,在馬樂(lè)一案中,“大數(shù)據(jù)”首次介入。深交所此前通過(guò)“大數(shù)據(jù)”查出的可疑賬戶(hù)高達(dá)300個(gè)。實(shí)際上,早在2009年,上交所曾經(jīng)有過(guò)利用“大數(shù)

32、據(jù)”設(shè)置“捕鼠器”的設(shè)想。通過(guò)建立相關(guān)的模型,設(shè)定一定的指標(biāo)預(yù)警,即相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí)監(jiān)控系統(tǒng)會(huì)自動(dòng)報(bào)警。而此次在馬樂(lè)案中亮相的深交所的“大數(shù)據(jù)” 監(jiān)測(cè)系統(tǒng),更是引起了廣泛關(guān)注。深交所有幾十人的監(jiān)控室,設(shè)置了200多個(gè)指標(biāo)用于監(jiān)測(cè)估計(jì),一旦出現(xiàn)股價(jià)偏離大盤(pán)走勢(shì),深交所利用大數(shù)據(jù)查探異動(dòng)背后是哪些人或機(jī)構(gòu)在參與。,金融大數(shù)據(jù),53,阿里“水文模型”是按小微企業(yè)類(lèi)目、級(jí)別等分別統(tǒng)計(jì)一個(gè)阿里系商戶(hù)的相關(guān)“水文數(shù)據(jù)”庫(kù)。如過(guò)往每到

33、某個(gè)時(shí)點(diǎn),該店鋪銷(xiāo)售會(huì)進(jìn)入旺季,銷(xiāo)售額就會(huì)增長(zhǎng),同時(shí)每在這個(gè)時(shí)段,該客戶(hù)對(duì)外投放的額度就會(huì)上升,結(jié)合這些水文數(shù)據(jù),系統(tǒng)可以判斷出該店鋪的融資需求;結(jié)合該店鋪以往資金支用數(shù)據(jù)及同類(lèi)店鋪資金支用數(shù)據(jù),可以判斷出該店鋪的資金需求額度。,金融交易大數(shù)據(jù),54,量化交易,程序化交易,高頻交易是大數(shù)據(jù)應(yīng)用比較多的領(lǐng)域。全球2/3的股票交易量是由高頻交易所創(chuàng)造的,參與者總收益每年高達(dá)80億美元。其中,大數(shù)據(jù)算法被用來(lái)作出交易決定?,F(xiàn)在,大多數(shù)

34、股權(quán)交易都是通過(guò)大數(shù)據(jù)算法進(jìn)行,這些算法越來(lái)越多地開(kāi)始考慮社交媒體網(wǎng)絡(luò)和新聞網(wǎng)站的信息來(lái)在幾秒內(nèi)做出買(mǎi)入和賣(mài)出的決定。當(dāng)一個(gè)產(chǎn)品可以在多個(gè)交易所交易時(shí),會(huì)形成不同的定價(jià),在這當(dāng)中,誰(shuí)能夠最快地捕捉到同一個(gè)產(chǎn)品在不同交易所之間的顯著價(jià)差,誰(shuí)就能捕捉到瞬間套利機(jī)會(huì),技術(shù)成為了重要因素,,制造業(yè)大數(shù)據(jù),55,在摩托車(chē)生產(chǎn)廠商哈雷·戴維森公司位于賓尼法尼亞州約克市新翻新的摩托車(chē)制造廠,軟件不停的在記錄著微小的制造數(shù)據(jù),如噴漆室風(fēng)扇

35、的速度等等。當(dāng)軟件察覺(jué)風(fēng)扇速度、溫度、濕度或其它變量脫離規(guī)定數(shù)值,它就會(huì)自動(dòng)調(diào)節(jié)機(jī)械。哈雷·戴維森同時(shí)還使用軟件,還尋找制約公司每86秒完成一臺(tái)摩托車(chē)制造工作的瓶頸。最近,這家公司的管理者通過(guò)研究數(shù)據(jù),認(rèn)為安裝后擋泥板的時(shí)間過(guò)長(zhǎng)。通過(guò)調(diào)整工廠配置,哈雷·戴維森提高了安裝該配件的速度。美國(guó)一些紡織及化工生產(chǎn)商,根據(jù)從不同的百貨公司POS機(jī)上收集的產(chǎn)品銷(xiāo)售速度信息,將原來(lái)的18周送貨速度減少到3周,這對(duì)百貨公司分銷(xiāo)

36、商來(lái)說(shuō),能以更快的速度拿到貨物,減少倉(cāng)儲(chǔ)。對(duì)生產(chǎn)商來(lái)說(shuō),積攢的材料倉(cāng)儲(chǔ)也能減少很多。,56,谷歌基于每天來(lái)自全球的30 多億條搜索指令設(shè)立了一個(gè)系統(tǒng),這個(gè)系統(tǒng)在2009 年甲流爆發(fā)之前就開(kāi)始對(duì)美國(guó)各地區(qū)進(jìn)行“流感預(yù)報(bào)”,并推出了“谷歌流感趨勢(shì)”服務(wù)。谷歌在這項(xiàng)服務(wù)的產(chǎn)品介紹中寫(xiě)道:搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。雖然并非每個(gè)搜索“流感”的人都患有流感,但谷歌發(fā)現(xiàn)了一些檢索詞條的組合并用特定的數(shù)學(xué)模

37、型對(duì)其進(jìn)行分析后發(fā)現(xiàn),這些分析結(jié)果與傳統(tǒng)流感監(jiān)測(cè)系統(tǒng)監(jiān)測(cè)結(jié)果的相關(guān)性高達(dá)97%。這也就表示,谷歌公司能做出與疾控部門(mén)同樣準(zhǔn)確的傳染源位置判斷,并且在時(shí)間上提前了一到兩周。”,,醫(yī)療大數(shù)據(jù),能源大數(shù)據(jù),57,國(guó)際大石油公司一直都非常重視數(shù)據(jù)管理。如雪佛龍公司將5萬(wàn)臺(tái)桌面系統(tǒng)與1800個(gè)公司站點(diǎn)連接,消除煉油、銷(xiāo)售與運(yùn)輸“下游系統(tǒng)”中的重復(fù)流程和系統(tǒng),每年節(jié)省5000萬(wàn)美元,過(guò)去4年已獲得了凈現(xiàn)值約為2億美元的回報(bào)。準(zhǔn)確預(yù)測(cè)太陽(yáng)能和

38、風(fēng)能需要分析大量數(shù)據(jù),包括風(fēng)速、云層等氣象數(shù)據(jù)。丹麥風(fēng)輪機(jī)制造商維斯塔斯( Vestas Wind Systems),通過(guò)在世界上最大的超級(jí)計(jì)算機(jī)上部署IBM大數(shù)據(jù)解決方案,得以通過(guò)分析包括PB量級(jí)氣象報(bào)告\潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),優(yōu)化風(fēng)力渦輪機(jī)布局,有效提高風(fēng)力渦輪機(jī)的性能,為客戶(hù)提供精確和優(yōu)化的風(fēng)力渦輪機(jī)配置方案不但幫助客戶(hù)降低每千瓦時(shí)的成本,并且提高了客戶(hù)投資回報(bào)估計(jì)的準(zhǔn)確度,同時(shí)它將業(yè)務(wù)用戶(hù)請(qǐng)求

39、的響應(yīng)時(shí)間從幾星期縮短到幾小時(shí)。,交通大數(shù)據(jù),58,UPS最新的大數(shù)據(jù)來(lái)源是安裝在公司4.6萬(wàn)多輛卡車(chē)上的遠(yuǎn)程通信傳感器,這些傳感器能夠傳回車(chē)速、方向、剎車(chē)和動(dòng)力性能等方面的數(shù)據(jù)。收集到的數(shù)據(jù)流不僅能說(shuō)明車(chē)輛的日常性能,還能幫助公司重新設(shè)計(jì)物流路線(xiàn)。大量的在線(xiàn)地圖數(shù)據(jù)和優(yōu)化算法,最終能幫助UPS實(shí)時(shí)地調(diào)配駕駛員的收貨和配送路線(xiàn)。該系統(tǒng)為UPS減少了8500萬(wàn)英里的物流里程,由此節(jié)約了840萬(wàn)加侖的汽油。,,,公安大數(shù)據(jù),59,大數(shù)據(jù)

40、挖掘技術(shù)的底層技術(shù)最早是英國(guó)軍情六處研發(fā)用來(lái)追蹤恐怖分子的技術(shù)。中國(guó)大數(shù)據(jù)的概念其實(shí)源于最早公安部抓法輪功分子。大數(shù)據(jù)篩選犯罪團(tuán)伙,與鎖定的罪犯乘坐同一班列車(chē),住同一酒店的兩個(gè)人可能是同伙,過(guò)去,刑偵人員要證明這一點(diǎn),需要通過(guò)把不同線(xiàn)索拼湊起來(lái)排查疑犯。通過(guò)對(duì)越來(lái)越多數(shù)據(jù)的挖掘分析,某一片區(qū)域的犯罪率以及犯罪模式都將清晰可見(jiàn)。大數(shù)據(jù)可以幫助警方定位最易受到不法分子侵?jǐn)_的區(qū)域,創(chuàng)建一張犯罪高發(fā)地區(qū)熱點(diǎn)圖和時(shí)間表。不但有利于警方

41、精準(zhǔn)分配警力,預(yù)防打擊犯罪,也能幫助市民了解情況,提高警惕。,文化傳媒大數(shù)據(jù),60,與傳統(tǒng)電視劇有別,《紙牌屋》是一部根據(jù)“大數(shù)據(jù)”制作的作品。制作方Netflix是美國(guó)最具影響力的影視網(wǎng)站之一,在美國(guó)本土有約2900萬(wàn)的訂閱用戶(hù)。Netflix成功之處在于其強(qiáng)大的推薦系統(tǒng)Cinematch,該系統(tǒng)基于用戶(hù)視頻點(diǎn)播的基礎(chǔ)數(shù)據(jù)如評(píng)分、播放、快進(jìn)、時(shí)間、地點(diǎn)、終端等,儲(chǔ)存在數(shù)據(jù)庫(kù)后通過(guò)數(shù)據(jù)分析,計(jì)算出用戶(hù)可能喜愛(ài)的影片,并為他提供定制化

42、的推薦。Netflix發(fā)布的數(shù)據(jù)顯示,用戶(hù)在Netflix上每天產(chǎn)生3000多萬(wàn)個(gè)行為,比如暫停、回放或者快進(jìn),同時(shí),用戶(hù)每天還會(huì)給出400萬(wàn)個(gè)評(píng)分,以及300萬(wàn)次搜索請(qǐng)求。Netflix遂決定用這些數(shù)據(jù)來(lái)制作一部電視劇,投資過(guò)億美元制作出《紙牌屋》。Netflix發(fā)現(xiàn),其用戶(hù)中有很多人仍在點(diǎn)播1991年BBC經(jīng)典老片《紙牌屋》,這些觀眾中許多人喜歡大衛(wèi)·芬奇,觀眾大多愛(ài)看奧斯卡得主凱文·史派西的電影,由此Ne

43、tflix邀請(qǐng)大衛(wèi)·芬奇為導(dǎo)演,凱文·史派西為主演翻拍了《紙牌屋》這一政治題材劇。2013年2月《紙牌屋》上線(xiàn)后,用戶(hù)數(shù)增加了300萬(wàn),達(dá)到2920萬(wàn)。,航空大數(shù)據(jù),61,Farecast 已經(jīng)擁有驚人的約2 000 億條飛行數(shù)據(jù)記錄。用來(lái)推測(cè)當(dāng)前網(wǎng)頁(yè)上的機(jī)票價(jià)格是否合理。作為一種商品,同一架飛機(jī)上每個(gè)座位的價(jià)格本來(lái)不應(yīng)該有差別。但實(shí)際上,價(jià)格卻千差萬(wàn)別,其中緣由只有航空公司自己清楚。Farecast預(yù)測(cè)當(dāng)前的機(jī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論