2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  目 錄</b></p><p><b>  摘要1</b></p><p>  AbstractII</p><p><b>  第1章 緒論1</b></p><p>  1.1選題背景與意義1</p><p> 

2、 1.2電子商務(wù)的發(fā)展現(xiàn)狀2</p><p>  1.3我國電子商務(wù)的發(fā)展階段3</p><p>  1.3.1電子商務(wù)的PC互聯(lián)時代3</p><p>  1.3.2電子商務(wù)的移動互聯(lián)時代4</p><p>  1.3.3電子商務(wù)的大數(shù)據(jù)時代4</p><p>  1.4研究方法與主要研究內(nèi)容5</

3、p><p>  第2章 電子商務(wù)的大數(shù)據(jù)時代6</p><p>  2.1電子商務(wù)大數(shù)據(jù)時代概述6</p><p>  2.2電子商務(wù)大數(shù)據(jù)時代的特點(diǎn)8</p><p>  2.2.1數(shù)據(jù)量大8</p><p>  2.2.2數(shù)據(jù)類型多樣9</p><p>  2.2.3數(shù)據(jù)處理速度快1

4、0</p><p>  2.2.4數(shù)據(jù)價值密度低10</p><p>  2.3電子商務(wù)大數(shù)據(jù)時代的SWOT分析11</p><p>  2.3.1優(yōu)勢分析11</p><p>  2.3.2劣勢分析12</p><p>  2.3.3機(jī)會分析12</p><p>  2.3.4威脅分

5、析13</p><p>  2.4電子商務(wù)大數(shù)據(jù)時代的發(fā)展前景13</p><p>  第3章 電子商務(wù)大數(shù)據(jù)時代面對的問題與挑戰(zhàn)16</p><p>  3.1 企業(yè)對大數(shù)據(jù)的認(rèn)知程度16</p><p>  3.2競爭情報系統(tǒng)的數(shù)據(jù)處理能力17</p><p>  3.3競爭情報體系組織模式18<

6、/p><p>  3.4相應(yīng)的問題解決方案分析18</p><p>  第4章 電子商務(wù)大數(shù)據(jù)時代的機(jī)遇20</p><p>  4.1重構(gòu)精準(zhǔn)營銷模式20</p><p>  4.2大數(shù)據(jù)時代電商IT基礎(chǔ)設(shè)施的變革22</p><p>  4.3大數(shù)據(jù)處理模式22</p><p>  4

7、.4信息檢索服務(wù)的強(qiáng)大性24</p><p>  4.5處理能力快速性25</p><p>  4.6數(shù)據(jù)分析的精準(zhǔn)性25</p><p>  4.7信息的安全服務(wù)25</p><p>  第5章 阿里巴巴電子商務(wù)大數(shù)據(jù)時代實(shí)證分析27</p><p>  5.1阿里大數(shù)據(jù)信息采集與推送27</p&g

8、t;<p>  5.2阿里大數(shù)據(jù)戰(zhàn)略發(fā)展歷程28</p><p>  5.2.1數(shù)據(jù)產(chǎn)品戰(zhàn)略28</p><p>  5.2.2數(shù)據(jù)平臺戰(zhàn)略28</p><p>  5.3阿里大數(shù)據(jù)戰(zhàn)略存在的安全隱患及解決對策29</p><p><b>  結(jié)束語30</b></p><p&

9、gt;<b>  致謝31</b></p><p><b>  參考文獻(xiàn)32</b></p><p><b>  第1章 緒論</b></p><p>  1.1選題背景與意義</p><p>  根據(jù)IDC機(jī)構(gòu)的定義,“大數(shù)據(jù)”是指為了更經(jīng)濟(jì)、更有效地從高頻率、大容量、不

10、同結(jié)構(gòu)類型的數(shù)據(jù)中獲取有價值的信息而設(shè)計的新一代架構(gòu)技術(shù),人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展創(chuàng)新。十年之前,電影《天下無賊》中的經(jīng)典對白“21世紀(jì)什么最貴?人才”被人們爭相傳頌;十年之后,這個問題的答案與時俱進(jìn)地變?yōu)楫?dāng)前市場熱點(diǎn)——數(shù)據(jù)!當(dāng)然,此數(shù)據(jù)已非傳統(tǒng)意義的數(shù)據(jù),而是海量、爆發(fā)式增長的“大數(shù)據(jù)”。作為繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)的又一次顛覆性技術(shù)浪潮,大數(shù)據(jù)被人們視為智慧城市的源泉、精準(zhǔn)營銷的

11、根基,其與傳統(tǒng)BI究竟有何區(qū)別?未來企業(yè)應(yīng)該如何挖掘海量數(shù)據(jù)背后的潛在價值?自2009年以來,從IBM、甲骨文到谷歌、亞馬遜、Face book,從IDC、Gartner到麥肯錫、普華永道、埃森哲,從《紐約時報》到《福布斯》、《財富》周刊,從《科學(xué)》、《自然》雜志到MIT《斯隆管理評論》——產(chǎn)業(yè)巨頭的實(shí)踐探索、連篇累牘的新聞報道,令“大數(shù)據(jù)”概念深入人心。顧名思義,“大數(shù)據(jù)”的精髓在于“大”,其不僅說明數(shù)據(jù)的數(shù)量龐大,還意味著數(shù)據(jù)種類繁

12、多、結(jié)構(gòu)復(fù)雜,變化速度飛快。大數(shù)據(jù)呈現(xiàn)三種特</p><p>  1.2電子商務(wù)的發(fā)展現(xiàn)狀</p><p>  隨著電子商務(wù)的發(fā)展,企業(yè)開始應(yīng)用“虛擬購物”手段在眾多購物場所開展逼近現(xiàn)實(shí)的市場研究,以期借助電腦系統(tǒng)在信息處理方面的優(yōu)勢,用靈活、科學(xué)的方法去觀察和分析消費(fèi)行為,加速市場研究過程。根據(jù)哈佛商學(xué)院研究人員對多種產(chǎn)品銷售的分析。“虛擬購物”能獲得較為可靠、準(zhǔn)確的市場信息,其記錄數(shù)據(jù)

13、與實(shí)際購物數(shù)據(jù)之間的相關(guān)系數(shù)大多在90%以上。由此看來,“虛擬購物”能夠克服傳統(tǒng)市場研究手段的缺點(diǎn),對企業(yè)營銷大有裨益。但電子商務(wù)對營銷的影響并不局限在市場研究的范圍內(nèi)?;ヂ?lián)網(wǎng)是一個國際性的開放系統(tǒng),企業(yè)一旦涉足其中,就要面對世界各國的潛在顧客即訪問者,于是自覺或不覺地成為進(jìn)行國際營銷的國際性企業(yè)。這就促使企業(yè)特別是以往針對本地市場的中小企業(yè)去考慮更為復(fù)雜的營銷戰(zhàn)略問題。根據(jù)目前對“在線購物”所進(jìn)行的研究,企業(yè)與顧客在互聯(lián)網(wǎng)上的交易一般

14、是起源于顧客對企業(yè)或產(chǎn)品、服務(wù)的尋找,即對互聯(lián)網(wǎng)上相關(guān)企業(yè)或產(chǎn)品、服務(wù)信息的瀏覽或訪問。這與以往市場交易的起始方向似正相反,從而帶來營銷及相應(yīng)經(jīng)營規(guī)則的重大改變:其一,根據(jù)顧客的訪問信息,企業(yè)可以更明確地界定潛在市場。營銷的重點(diǎn),是最大限度地令訪問者成為消費(fèi)者,該項工作也可望因企</p><p>  1.3我國電子商務(wù)的發(fā)展階段</p><p>  1.3.1電子商務(wù)的PC互聯(lián)時代<

15、/p><p>  電子商務(wù)的起源可以追溯到互聯(lián)網(wǎng)(Internet)和電子數(shù)據(jù)交換的出現(xiàn)。前者為電子商務(wù)的推廣應(yīng)用奠定了基礎(chǔ);后者是電子商務(wù)的初始應(yīng)用方式,至今仍是電子商務(wù)的重要組成部分。60年代末期,美國國防部高級項目管理處建立了聯(lián)接美國各大學(xué)與國防工業(yè)合同商之間的電腦網(wǎng)絡(luò)ARPANE,繼而開發(fā)了該網(wǎng)絡(luò)的標(biāo)準(zhǔn)通訊協(xié)議TCP/IP。至80年代中期,美國國家科學(xué)基金會利用ARPANET的模式形成了自己的電腦網(wǎng)絡(luò)NSFN

16、E,并逐漸與ARpA NET合并。與此同時,諸如Usenet、ll TNET,經(jīng)由各自的電腦系統(tǒng)以共用的交易標(biāo)準(zhǔn)進(jìn)行商業(yè)信息的交換,這就是電子數(shù)據(jù)交換。70年代中期,美國運(yùn)輸行業(yè)制定了T l)cc交易標(biāo)準(zhǔn),率先應(yīng)用這一先進(jìn)的商務(wù)手段。其后美國國家標(biāo)準(zhǔn)局在T l)CC的基礎(chǔ)上制定了ANslX12交易標(biāo)準(zhǔn),并負(fù)責(zé)對增值網(wǎng)的合格認(rèn)證工作,促進(jìn)了電子數(shù)據(jù)交換在多個產(chǎn)業(yè)部門的應(yīng)用。近年來,電子數(shù)據(jù)交換的管道進(jìn)一步從私人線路和增值網(wǎng)擴(kuò)展到互聯(lián)網(wǎng)上。

17、用戶急劇增多。據(jù)估計,目前全美使用電子數(shù)據(jù)交換的企業(yè)已經(jīng)超過5萬家,到2000年時將達(dá)20萬家左右,其應(yīng)用前景由此可見一斑。1993年9月,美國克林頓政府發(fā)布</p><p>  圖1電子商務(wù)的概念框架</p><p>  1.3.2電子商務(wù)的移動互聯(lián)時代</p><p>  移動互聯(lián)網(wǎng)是一個全國性的、以寬帶IP為技術(shù)核心的,可同時提供語音、傳真、數(shù)據(jù)、圖像、多媒體

18、等高品質(zhì)電信服務(wù)的新一代開放的電信基礎(chǔ)網(wǎng)絡(luò)。簡單地說,移動互聯(lián)網(wǎng)能讓用戶在移動中通過移動設(shè)備(如手機(jī)、iPod等移動終端)隨時、隨地訪問Internet、獲取信息,進(jìn)行商務(wù)、娛樂等各種網(wǎng)絡(luò)服務(wù)。終端、網(wǎng)絡(luò)與應(yīng)用是移動互聯(lián)網(wǎng)的3個要素。正是由于中國3G網(wǎng)絡(luò)的投入運(yùn)營,iPhone、Android等智能手機(jī)終端以及應(yīng)用平臺的出現(xiàn),才使得移動互聯(lián)網(wǎng)得以如此迅猛地發(fā)展。中國目前約有8.4億的手機(jī)用戶、3.02億的手機(jī)網(wǎng)民,新興且前景光明的移動互

19、聯(lián)網(wǎng)成為眾企業(yè)垂涎的蛋糕。諸如新浪微博、街旁、米聊等,甚至是開心網(wǎng)、優(yōu)酷也都紛紛推出自己的手機(jī)客戶端。中國社會化媒體幾乎都可以從國外找到原型,從You tube到優(yōu)酷、土豆,從Twitter到新浪、騰訊微博,以及各種消費(fèi)點(diǎn)評、問答百科、位置服務(wù)等,這些媒體為普通用戶提供了極大的互動交流空間。隨著中國的互聯(lián)網(wǎng)產(chǎn)業(yè)進(jìn)入一個持續(xù)、快速、穩(wěn)定的發(fā)展時期,豐富多彩的互聯(lián)網(wǎng)應(yīng)用已成為國人生活中必不可少的部分。移動互聯(lián)網(wǎng)應(yīng)用繽紛多彩,娛樂、商務(wù)、信息

20、服務(wù)等各種各樣應(yīng)用開始滲入人們</p><p>  1.3.3電子商務(wù)的大數(shù)據(jù)時代</p><p>  大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。業(yè)界將其特點(diǎn)歸結(jié)為4V——Volume(數(shù)據(jù)體量巨大)、Velocity(數(shù)據(jù)類型繁多)、Variety(價值密

21、度低)、Veracity(處理速度快)。與傳統(tǒng)數(shù)據(jù)相比較,大數(shù)據(jù)包含數(shù)據(jù)交換、互聯(lián)、質(zhì)量、安全等數(shù)據(jù)體系建設(shè)以及建設(shè)上層數(shù)據(jù)應(yīng)用的整個生態(tài)圈。在大數(shù)據(jù)時代浪潮中,時間每過去3分鐘,全球?qū)a(chǎn)生6.12億封郵件,6000萬張照片,將會有18.3萬小時的音樂被下載,有76.4個視頻在優(yōu)酷被上傳,有14.1萬個程序在蘋果商店被使用,支付寶上將產(chǎn)生4400萬人民幣的交易額。這種爆炸性增長的數(shù)據(jù)量對于企業(yè)發(fā)展來說,是一筆取之不盡、用之不竭的財富。

22、阿里巴巴、京東商城等眾多網(wǎng)絡(luò)巨頭正因?yàn)榭粗辛诉@座金礦,紛紛提出將數(shù)據(jù)作為未來發(fā)展的重要戰(zhàn)略之一。2013年,電商的競爭很大程度上就是大數(shù)據(jù)的競爭,大數(shù)據(jù)將貫穿整個電商的業(yè)務(wù)流程,成為公司核心競爭力。目前,大數(shù)據(jù)在現(xiàn)實(shí)世界中已有著非常廣泛的分布和應(yīng)用,包括醫(yī)療信息、視頻監(jiān)控</p><p>  1.4研究方法與主要研究內(nèi)容</p><p>  近年來,伴隨著互聯(lián)網(wǎng)、3S技術(shù)(GPS、GIS、

23、RS)、以及智能手機(jī)的迅速發(fā)展,人文社會科學(xué)領(lǐng)域的研究數(shù)據(jù)獲取與處理已經(jīng)出現(xiàn)了新的趨向。主要包括:利用軟件對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘;利用GPS或LBS設(shè)備,結(jié)合GIS或網(wǎng)絡(luò)日志來采集與分析居民行為數(shù)據(jù);利用網(wǎng)絡(luò)地圖對獲取的數(shù)據(jù)進(jìn)行可視化開發(fā)。這些技術(shù)可以作為大數(shù)據(jù)時代城市時空間行為研究數(shù)據(jù)的重要來源,將有利于擴(kuò)大研究的范圍,并增加研究結(jié)果的精確性。網(wǎng)絡(luò)數(shù)據(jù)挖掘是計算機(jī)科學(xué)研究的重要內(nèi)容,包括內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘3種類型。其中,內(nèi)容挖掘

24、是對網(wǎng)頁文本和媒體數(shù)據(jù)的獲取,用于研究用戶活動狀態(tài)和特征;結(jié)構(gòu)挖掘是對網(wǎng)頁鏈接結(jié)構(gòu)進(jìn)行分析,用于評估網(wǎng)頁的資源量;使用挖掘則是通過挖掘網(wǎng)頁訪問的日志記錄,以便提供個性化的產(chǎn)品和服務(wù)以此來研究電子商務(wù)的大數(shù)據(jù)時代。</p><p>  第2章 電子商務(wù)的大數(shù)據(jù)時代</p><p>  近年來,以互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)、廣電網(wǎng)、無線寬帶網(wǎng)為基礎(chǔ)的智慧城市建設(shè)帶來了數(shù)據(jù)量的爆發(fā)式增長,“大數(shù)據(jù)”

25、像血液一樣遍布智慧交通、智慧醫(yī)療、智慧生活、智慧營銷等城市生活的方方面面,并推動社會職能部門及企業(yè)決策者們從“經(jīng)驗(yàn)治理”向“科學(xué)治理”轉(zhuǎn)型。如何挖掘海量數(shù)據(jù)的潛在價值,為城市治理、市民生活、企業(yè)營銷提供可靠的決策建議,是智慧城市發(fā)展所面臨的重要課題,亦是企業(yè)在未來市場競爭中搶占先機(jī)的關(guān)鍵。</p><p>  2.1電子商務(wù)大數(shù)據(jù)時代概述</p><p>  “大數(shù)據(jù)”時代(“Age of

26、 Big Data”)這一說法的流行得力于全球知名咨詢公司麥肯錫的倡導(dǎo),英國牛津大學(xué)教授維克托·邁爾·舍恩伯格更在其《大數(shù)據(jù)時代:生活、工作和思維的改變》中大聲疾呼,斷言一個史無前例的大數(shù)據(jù)時代已經(jīng)來臨!“大數(shù)據(jù)”(“Big data”)顯然并不是一個嚴(yán)格的學(xué)理性概念,而更多地是一個描述性話語。所謂大數(shù)據(jù),也就是大型數(shù)據(jù)集,一般在10TB規(guī)模左右。多個數(shù)據(jù)集一整合,就會形成PB級,甚至以E、Z等為計量單位的數(shù)據(jù)量。過

27、去幾年全世界產(chǎn)生的數(shù)據(jù)量甚至超過了歷史上4萬年來產(chǎn)生的數(shù)據(jù)量的總和。這種激增的數(shù)據(jù)量勢必突破傳統(tǒng)常規(guī)軟件的信息處理能力極限。大數(shù)據(jù)的說法正是在與傳統(tǒng)數(shù)據(jù)庫的比照中形成的,也注定只能是一個暫時性的權(quán)宜說法。隨著信息技術(shù)的進(jìn)一步發(fā)展,更大的數(shù)據(jù)集合會不斷出現(xiàn),今日所謂的“大數(shù)據(jù)”勢必相形見絀。</p><p>  IT業(yè)界通常將大數(shù)據(jù)的特征概括為四個“V”:體量(volumes)巨、類別(variety)多、速度(V

28、elocity)快、價值(Value)大。大數(shù)據(jù)之大首先是指體量大。大數(shù)據(jù)和傳統(tǒng)所說的數(shù)據(jù)庫有所不同。誕生在20世紀(jì)70年代的傳統(tǒng)數(shù)據(jù)庫是小型的、單一的、孤立的,基于小范圍的抽樣樣本統(tǒng)計。而大數(shù)據(jù)則要求窮盡一切相關(guān)樣本,搜集盡可能全面的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)集擁有的不是支離破碎的割裂數(shù)據(jù),不是數(shù)據(jù)片段,而是完整的數(shù)據(jù)。數(shù)據(jù)的海量與數(shù)據(jù)的完整性使大數(shù)據(jù)有著傳統(tǒng)的數(shù)據(jù)庫無法比擬的信息優(yōu)勢。大數(shù)據(jù)之大還在于氣魄大、境界大。大數(shù)據(jù)的來源也有別于傳統(tǒng)

29、的數(shù)據(jù)庫,顯示出了跨領(lǐng)域、跨門類、多類別的整合氣魄和越界意識,如果說非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一直沒有被納入經(jīng)典數(shù)據(jù)庫技術(shù)SQL的視野,那么大數(shù)據(jù)的數(shù)據(jù)則源自多種數(shù)據(jù)源,是一種綜合數(shù)據(jù),兼收并蓄了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等各種類別和格式的數(shù)據(jù),尤其是包含了大量的視頻音頻數(shù)據(jù)。這使其信息占有量和信息復(fù)雜度為傳統(tǒng)數(shù)據(jù)庫所無法比擬。這些海量數(shù)據(jù)本身就會凸顯以往不為人們注意的事物的多方面的關(guān)聯(lián)性,因此這種數(shù)據(jù)更能顯示出多方面的信息

30、內(nèi)涵,信息質(zhì)量更</p><p>  處理,顯示出了前所未有的價值。但大數(shù)據(jù)潮流的深層根源顯然還是利潤最大化的商業(yè)沖動,大數(shù)據(jù)產(chǎn)業(yè)說到底不過是數(shù)字經(jīng)濟(jì)、知識經(jīng)濟(jì)的最新形態(tài),這也是“大數(shù)據(jù)”這個為管理咨詢公司、經(jīng)濟(jì)學(xué)家、IT界巨頭歡欣鼓舞的概念招人質(zhì)疑的重要原因。但是商業(yè)化潮流既可能導(dǎo)致文化的沙化、社會的急功近利、商業(yè)的唯利是圖,也會成為文化創(chuàng)新的不竭動力,開啟知識創(chuàng)造的新天地和新境界。事實(shí)上,正是近年來數(shù)字化領(lǐng)域

31、的商業(yè)逐利沖動驅(qū)使商家不斷改換思路,升級設(shè)備,實(shí)現(xiàn)數(shù)字技術(shù)創(chuàng)新,提升數(shù)字服務(wù)水準(zhǔn),開辟新的產(chǎn)業(yè)領(lǐng)域,開發(fā)新的文化產(chǎn)品,開創(chuàng)了蔚為潮流的大數(shù)據(jù)產(chǎn)業(yè),也開啟了有別于互聯(lián)網(wǎng)時代的“數(shù)字化生存“的新境界。</p><p>  2.2電子商務(wù)大數(shù)據(jù)時代的特點(diǎn)</p><p>  大數(shù)據(jù)是一個較為抽象的概念,正如信息學(xué)領(lǐng)域大多數(shù)新興概念,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義。在維基百科中關(guān)于大數(shù)據(jù)的定義為:

32、大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。個人認(rèn)為,這并不是一個精確的定義,因?yàn)闊o法確定常用軟件工具的范圍,可容忍時間也是個概略的描述。IDC在對大數(shù)據(jù)作出的定義為:大數(shù)據(jù)一般會涉及2種或2種以上數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實(shí)時數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會增長60%以上。這個定義給出了量化標(biāo)準(zhǔn),但只強(qiáng)調(diào)數(shù)據(jù)量大,種類多,增長快等數(shù)據(jù)本身的特征。研究機(jī)構(gòu)Gartne

33、r給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個描述性的定義,在對數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征,用這些特征來描述大數(shù)據(jù)。當(dāng)前,較為統(tǒng)一的認(rèn)識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳&

34、lt;/p><p><b>  2.2.1數(shù)據(jù)量大</b></p><p>  大數(shù)據(jù)聚合在一起的數(shù)據(jù)量是非常大的,根據(jù)IDC的定義至少要有超過100TB的可供分析的數(shù)據(jù),數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。導(dǎo)致數(shù)據(jù)規(guī)模激增的原因有很多,首先是隨著互聯(lián)網(wǎng)絡(luò)的廣泛應(yīng)用,使用網(wǎng)絡(luò)的人、企業(yè)、機(jī)構(gòu)增多,數(shù)據(jù)獲取、分享變得相對容易,以前,只有少量的機(jī)構(gòu)可以通過調(diào)查、取樣的方法獲取數(shù)據(jù),同

35、時發(fā)布數(shù)據(jù)的機(jī)構(gòu)也很有限,人們難以短期內(nèi)獲取大量的數(shù)據(jù),而現(xiàn)在用戶可以通過網(wǎng)絡(luò)非常方便的獲取數(shù)據(jù),同時用戶在有意的分享和無意的點(diǎn)擊、瀏覽都可以快速的提供大量數(shù)據(jù);其次是隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,使得人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。早期的單位化數(shù)據(jù),對原始事物進(jìn)行了一定程度的抽象,數(shù)據(jù)維度低,數(shù)據(jù)類型簡單,多采用表格的形式來收集、存儲、整理,數(shù)據(jù)的單位、量綱和意義基本統(tǒng)一,存儲、處理的只是數(shù)值而

36、已,因此數(shù)據(jù)量有限,增長速度慢而隨著應(yīng)用的發(fā)展,數(shù)據(jù)維度越來越高,描述相同事物所需的數(shù)據(jù)量越來越大。以當(dāng)前最為普遍的網(wǎng)絡(luò)數(shù)據(jù)為例,早期網(wǎng)絡(luò)上的數(shù)據(jù)以文本和一維的音頻為主,維度低,單位數(shù)據(jù)量小。近年來,圖像、視頻等二維數(shù)據(jù)大規(guī)模涌現(xiàn),而隨著三維掃描設(shè)備以及Kinect</p><p>  2.2.2數(shù)據(jù)類型多樣</p><p>  數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量

37、龐大,但通常是事先定義好的結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是將事物向便于人類和計算機(jī)存儲、處理、查詢的方向抽象的結(jié)果,結(jié)構(gòu)化在抽象的過程中,忽略一些在特定的應(yīng)用下可以不考慮的細(xì)節(jié),抽取了有用的信息。處理此類結(jié)構(gòu)化數(shù)據(jù),只需事先分析好數(shù)據(jù)的意義以數(shù)據(jù)間的相關(guān)屬性,構(gòu)造表結(jié)構(gòu)來表示數(shù)據(jù)的屬性,數(shù)據(jù)都以表格的形式保存在數(shù)據(jù)庫中,數(shù)據(jù)格式統(tǒng)一,以后不管再產(chǎn)生多少數(shù)據(jù),只需根據(jù)其屬性,將數(shù)據(jù)存儲在合適的位置,就可以方便的處理、查詢,一般不需要為新增的數(shù)據(jù)顯

38、著的更改數(shù)據(jù)聚集、處理、查詢方法,限制數(shù)據(jù)處理能力的只是運(yùn)算速度和存儲空間。這種關(guān)注結(jié)構(gòu)化信息,強(qiáng)調(diào)大眾化、標(biāo)準(zhǔn)化的屬性使得處理傳統(tǒng)數(shù)據(jù)的復(fù)雜程度一般呈線性增長,新增的數(shù)據(jù)可以通過常規(guī)的技術(shù)手段處理。而隨著互聯(lián)網(wǎng)絡(luò)與傳感器的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的結(jié)構(gòu)屬性,難以用表結(jié)構(gòu)來表示,在記錄數(shù)據(jù)數(shù)值的同時還需要存儲數(shù)據(jù)的結(jié)構(gòu),增加了數(shù)據(jù)存儲、處理的難度。而時下在網(wǎng)絡(luò)上流動著的數(shù)據(jù)大部分是非結(jié)構(gòu)化數(shù)據(jù),人們上網(wǎng)不只是

39、看看新聞,發(fā)送文字郵件,還會上傳下載照片、視頻、發(fā)送微博等非</p><p>  2.2.3數(shù)據(jù)處理速度快</p><p>  要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡(luò)等信息獲取、傳播技術(shù)的飛速發(fā)展普及,數(shù)據(jù)的產(chǎn)生、發(fā)布越來越容易,產(chǎn)生數(shù)據(jù)的途徑增多,個人甚至成為了數(shù)據(jù)產(chǎn)生的主體之一,數(shù)據(jù)呈爆炸的形式快速增長,新數(shù)據(jù)不斷涌現(xiàn),快速增長的數(shù)據(jù)

40、量要求數(shù)據(jù)處理的速度也要相應(yīng)的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢,反而成了快速解決問題的負(fù)擔(dān)。同時,數(shù)據(jù)不是靜止不動的,而是在互聯(lián)網(wǎng)絡(luò)中不斷流動,且通常這樣的數(shù)據(jù)的價值是隨著時間的推移而迅速降低的,如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義。此外,在許多應(yīng)用中要求能夠?qū)崟r處理新增的大量數(shù)據(jù),比如有大量在線交互的電子商務(wù)應(yīng)用,就具有很強(qiáng)的時效性,大數(shù)據(jù)以數(shù)據(jù)流的形式產(chǎn)生

41、、快速流動、迅速消失,且數(shù)據(jù)流量通常不是平穩(wěn)的,會在某些特定的時段突然激增,數(shù)據(jù)的涌現(xiàn)特征明顯,而用戶對于數(shù)據(jù)的響應(yīng)時間通常非常敏感,心理學(xué)實(shí)驗(yàn)證實(shí),從用戶體驗(yàn)的角度,瞬間(moment,3秒鐘)是可以容忍的最大極限,對于大數(shù)據(jù)應(yīng)用而言,很多情況下都必須要在1秒鐘或者瞬間內(nèi)形成結(jié)果,否則處理結(jié)果</p><p>  2.2.4數(shù)據(jù)價值密度低</p><p>  數(shù)據(jù)價值密度低是大數(shù)據(jù)關(guān)注的

42、非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),依據(jù)特定的應(yīng)用,對事物進(jìn)行了相應(yīng)的抽象,每一條數(shù)據(jù)都包含該應(yīng)用需要考量的信息,而大數(shù)據(jù)為了獲取事物的全部細(xì)節(jié),不對事物進(jìn)行抽象、歸納等處理,直接采用原始的數(shù)據(jù),保留了數(shù)據(jù)的原貌,且通常不對數(shù)據(jù)進(jìn)行采樣,直接采用全體數(shù)據(jù),由于減少了采樣和抽象,呈現(xiàn)所有數(shù)據(jù)和全部細(xì)節(jié)信息,可以分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應(yīng)用,大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的價值密度偏低

43、,以當(dāng)前廣泛應(yīng)用的監(jiān)控視頻為例,在連續(xù)不間斷監(jiān)控過程中,大量的視頻數(shù)據(jù)被存儲下來,許多數(shù)據(jù)可能是無用,對于某一特定的應(yīng)用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數(shù)據(jù)可能僅僅有一兩秒,大量不相關(guān)的視頻信息增加了獲取這有效的一兩秒數(shù)據(jù)的難度。但是大數(shù)據(jù)的數(shù)據(jù)密度低是指相對于特定的應(yīng)用,有效的信息相對于數(shù)據(jù)整體是偏少的,信息有效與否也是相對的,對于某些應(yīng)用是無效的信息對于另外一些應(yīng)用則成為最關(guān)鍵的信息,數(shù)據(jù)的價值也是相對的,有時一條微不足道

44、的細(xì)節(jié)數(shù)據(jù)可能造成巨大的影響,比如網(wǎng)絡(luò)中的一條幾十個字符的微博,就可能通過轉(zhuǎn)發(fā)而快速擴(kuò)散,導(dǎo)</p><p>  2.3電子商務(wù)大數(shù)據(jù)時代的SWOT分析</p><p><b>  2.3.1優(yōu)勢分析</b></p><p><b>  1、資源優(yōu)勢</b></p><p>  對檔案館而言,其最大

45、的優(yōu)勢在于所擁有的資源。首先,檔案館信息資源總量龐大且增長迅速。2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達(dá)10%,而到2011年各級國家檔案館館藏已達(dá)3.3億卷,到2020年各級國家檔案館館藏將達(dá)到6億多卷。其次,檔案館數(shù)據(jù)資源種類繁多。在檔案館的數(shù)據(jù)資源中,既有數(shù)字化的紙質(zhì)檔案、接收進(jìn)館的電子文件、音視頻檔案等,也有用戶利用信息、服務(wù)數(shù)據(jù)等數(shù)據(jù)資源。再次,檔案館數(shù)據(jù)資源價值很高。與其它數(shù)據(jù)資源

46、等相比,“檔案是一種最真實(shí)、最可靠、最具權(quán)威性與憑證性的原生信息資源”,這就使得數(shù)據(jù)洪流時代檔案的價值與作用更加凸顯。</p><p><b>  2、行業(yè)領(lǐng)先</b></p><p>  首先,各級國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事業(yè)機(jī)構(gòu),是永久保管檔案的基地,是社會各界利用檔案史料的中心。作為一種機(jī)構(gòu)性存在與制度性安排,檔案館的公共性、服務(wù)性、公平性

47、、永久性等特征,使得檔案館成為人們心目中最系統(tǒng)、最值得信賴的數(shù)據(jù)資源庫。大數(shù)據(jù)時代,檔案館維護(hù)和傳承記憶的功能將更加重要,構(gòu)建一個“基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體記憶的建構(gòu)和傳承提供文獻(xiàn)支撐的‘中國記憶’數(shù)字將成為檔案人新的目標(biāo)與使命。其次,檔案館在數(shù)據(jù)處理上具有豐富的經(jīng)驗(yàn)??疾鞌?shù)據(jù)生命周期,涉及到數(shù)據(jù)生成、采集、傳輸、處理、分析、應(yīng)用等階段,而這也恰恰是檔案館熟悉的業(yè)務(wù)范疇。因此,

48、檔案館可以通過模擬或借鑒傳統(tǒng)檔案處理的整套業(yè)務(wù)規(guī)范或流程來指導(dǎo)大數(shù)據(jù)的處理,“對知識規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地”。</p><p><b>  2.3.2劣勢分析</b></p><p><b>  1、認(rèn)識問題</b></p><p>  作為一個檔案大國,幾千年檔案工作的歷史積淀在我國形成了

49、豐富多彩的檔案文化,也形成了一套獨(dú)特的檔案思維模式。大數(shù)據(jù)時代,有可能出現(xiàn)兩種認(rèn)識問題:一是沒有大數(shù)據(jù)意識,即無視大數(shù)據(jù)時代的來臨,采取固守原狀的鴕鳥政策,這將使檔案館失去未來的發(fā)展機(jī)會,甚至?xí)ゴ嬖诘囊饬x。二是泛大數(shù)據(jù)化,即不加鑒別地收集保存數(shù)據(jù),從而使檔案館陷入數(shù)據(jù)沼澤,進(jìn)而喪失自己的特色,顯然這也是檔案館無法承受的。因此,大數(shù)據(jù)背景下,科學(xué)認(rèn)識大數(shù)據(jù)的內(nèi)涵,合理地選擇切入點(diǎn),將是檔案館在大數(shù)據(jù)時代立足的首要問題,而這或許也是檔案

50、館最難解決的一個問題。</p><p><b>  2、人才瓶頸</b></p><p>  在檔案事業(yè)快速發(fā)展的今天,我國的檔案人才隊伍建設(shè)卻不盡如人意。一是專業(yè)人才不足。以2006年為例,全國各省(除臺灣外)、自治區(qū)、直轄市各級檔案館中具備博士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的工作人員為零,具備碩士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的工作人員只有26人,具備學(xué)士學(xué)位且畢業(yè)于檔案學(xué)專業(yè)的

51、工作人員只有1598人。二是信息技術(shù)人才的匱乏。“大數(shù)據(jù)泡沫如果現(xiàn)在存在的話,恐怕并非數(shù)據(jù)的作用被過分夸大,而主要是由于真正具備資質(zhì)的數(shù)據(jù)科學(xué)家數(shù)量不足導(dǎo)致的?!睋?jù)統(tǒng)計,到2018年美國將面臨150萬個掌握大數(shù)據(jù)應(yīng)用分析方法的技術(shù)經(jīng)理和分析師缺口,另缺14萬至19萬具有“深度分析”經(jīng)驗(yàn)的工作者。從目前來看,大數(shù)據(jù)成功的案例無不是特定的項目,例如“啤酒與尿布”,因此,現(xiàn)階段檔案館人員最需要的是懂得用戶的需求,因?yàn)閿?shù)據(jù)越大,用戶的個性需求就

52、越多樣,服務(wù)切口就越小。毫無疑問,這需要檔案人員擁有極強(qiáng)的洞察能力。</p><p><b>  2.3.3機(jī)會分析</b></p><p><b>  1、需求旺盛</b></p><p>  隨著信息環(huán)境的變化和社會檔案意識的覺醒,用戶的檔案信息需求層面不斷加深,需求領(lǐng)域也不斷拓展。首先,精品化的信息需求與專業(yè)化的知識

53、服務(wù)要求。隨著社會檔案意識的增強(qiáng),“用戶關(guān)注的已不再是簡單的獲取文獻(xiàn),而是如何從繁雜的信息環(huán)境中捕獲和析取解決所面臨問題的信息內(nèi)容,并將這些信息融化或重組為相應(yīng)的知識或解決方案”。其次,個性化的信息需求與互動式的信息服務(wù)要求。隨著用戶信息素養(yǎng)的不斷提高,檔案用戶已從信息服務(wù)的“被動接受者”轉(zhuǎn)換為“主動選擇者”,他們更希望獲得一種為自己量身定做的個性化信息服務(wù)。同時,用戶在獲取信息的過程中,希望能與館員進(jìn)行人際交流與相互溝通,從而獲取文化

54、的熏陶、思想的碰撞及心靈的浸潤。</p><p><b>  2、政策導(dǎo)向</b></p><p>  2010年國家檔案局《數(shù)字檔案館建設(shè)指南》頒布,提出運(yùn)用多種技術(shù)手段“采集具有重要保存價值的各類數(shù)字信息,進(jìn)行資源整合”、“對數(shù)字檔案信息進(jìn)行深度挖掘,開展增值服務(wù)”、“開展檔案利用訪問量統(tǒng)計、分布分析、輿情分析等工作”。2012年楊冬權(quán)在全國檔案局館長會議上講話指

55、出,要在新的起點(diǎn)上進(jìn)一步推進(jìn)檔案信息化,即從過去以技術(shù)為主導(dǎo)向以服務(wù)為主導(dǎo)轉(zhuǎn)變,從注重應(yīng)用信息技術(shù)向注重檔案內(nèi)容信息化轉(zhuǎn)變,樹立“內(nèi)容為王”的觀念,建設(shè)以服務(wù)為主導(dǎo)的檔案信息化體系。這些政策性文件及講話,將為大數(shù)據(jù)在檔案館中的應(yīng)用帶來更多的政策支持,也為大數(shù)據(jù)時代檔案館的發(fā)展帶來更多機(jī)遇。</p><p><b>  2.3.4威脅分析</b></p><p><

56、;b>  1、信息安全</b></p><p>  大數(shù)據(jù)時代,數(shù)據(jù)量之大、數(shù)據(jù)種類之多、對數(shù)據(jù)處理速度與時間之快,都對傳統(tǒng)的檔案館安全體系造成極大沖擊。從基礎(chǔ)技術(shù)角度而言,當(dāng)前檔案館廣泛應(yīng)用的關(guān)系型數(shù)據(jù)庫(SQL)技術(shù),經(jīng)過長期實(shí)踐與完善,在維護(hù)數(shù)據(jù)安全方面已經(jīng)設(shè)置了嚴(yán)格的訪問控制和隱私管理工具,而大數(shù)據(jù)依托的基礎(chǔ)技術(shù)是非關(guān)系型數(shù)據(jù)庫(No SQL),其在成熟度和可訪問性方面都不如傳統(tǒng)數(shù)據(jù)庫技

57、術(shù)。從核心價值角度而言,大數(shù)據(jù)的關(guān)鍵在于信息爆炸時代對數(shù)據(jù)價值的再挖掘。然而,數(shù)據(jù)分析技術(shù)的發(fā)展,對國家安全及用戶隱私產(chǎn)生了極大威脅,數(shù)據(jù)持有人可以從歷史數(shù)據(jù)中推測判斷出行為人的下一步動作——個人行動軌跡、行為軌跡,甚至思維軌跡。</p><p><b>  2、用戶流失</b></p><p>  大數(shù)據(jù)時代,檔案館面臨著網(wǎng)絡(luò)、圖書館及信息服務(wù)公司等的競爭,用戶流失

58、是不爭的事實(shí)。以網(wǎng)絡(luò)為例,網(wǎng)絡(luò)信息資源的豐富使用戶足不出戶就可以獲取所需的信息,用戶對檔案館的穩(wěn)定性與忠誠度下降。據(jù)統(tǒng)計,“超過90%的用戶在查找信息時,會首選搜索引擎,搜索已經(jīng)成為公眾獲取信息的代名詞”。因此,數(shù)字化時代,檔案館如何實(shí)現(xiàn)“數(shù)據(jù)化生存”,將是不得不慎重考慮的難題。</p><p>  2.4電子商務(wù)大數(shù)據(jù)時代的發(fā)展前景</p><p>  20年后互聯(lián)網(wǎng)發(fā)生的巨大的變化,移

59、動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。我們在享受便利的同時,也無償貢獻(xiàn)了自己的“行蹤”。現(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,還知道這只狗喜歡什么食物、幾點(diǎn)出去遛彎,幾點(diǎn)回窩睡覺。我們不得不接受這個現(xiàn)實(shí),每個人在互聯(lián)網(wǎng)進(jìn)入到大數(shù)據(jù)時代,都將是透明性存在。在物理世界中,許多行為是“人似秋鴻有來信,事如春夢了無痕”。但在互聯(lián)網(wǎng)上卻是“處處行跡處處痕”。任何行為,皆有前兆。要買商品,必先瀏覽,對比,詢價;要搞活動,必先征集、討

60、論、策劃;互聯(lián)網(wǎng)上恰恰保留了大量的前兆性的數(shù)據(jù),通過對這些數(shù)據(jù)的收集和分析,互聯(lián)網(wǎng)企業(yè)具備了預(yù)判物理世界中,人類未來行為的能力。收集分析海量的各種類型的數(shù)據(jù),并快速獲取影響未來的信息的能力,這就是大數(shù)據(jù)技術(shù)的魅力。事實(shí)上大數(shù)據(jù)的來源非常廣泛,天上的衛(wèi)星、地上汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數(shù)據(jù)。這些數(shù)據(jù)如果綜合利用,產(chǎn)生的社會價值和經(jīng)濟(jì)價值將是難以估量的。</p><p>  第一篇報告——

61、《大數(shù)據(jù)時代即將到來》,之所以用時代這個詞作為標(biāo)題,是因?yàn)榇髷?shù)據(jù)是歷史上首個可以預(yù)測人類短期行為的技術(shù)。未來的不確定性,是人類產(chǎn)生恐懼的根源之一,也是各類組織最為頭痛的問題。大數(shù)據(jù)技術(shù)技術(shù)讓我們看到解決未來預(yù)測問題的一絲曙光。</p><p>  “08年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了。”通常而言

62、,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點(diǎn)擊的數(shù)量和購買點(diǎn)擊的數(shù)量會保持一個相對的數(shù)值。統(tǒng)計歷史上所有買家、賣家的詢價和成交的數(shù)據(jù),可以形成詢盤指數(shù)和成交指數(shù)。這兩個指數(shù)是強(qiáng)相關(guān)的。詢盤指數(shù)是前兆性的,前期詢盤指數(shù)活躍,就會保證后期一定的成交量。所以當(dāng)馬云觀察到詢盤指數(shù)異乎尋常的下降,自然就可以推測未來成交量的萎縮。這種統(tǒng)計和分析,如果缺少大數(shù)據(jù)技術(shù)的支持,是難以完成的。這次事件,馬云提前呼吁、

63、幫助成千上萬的中小制造商準(zhǔn)備過冬糧,從而贏得了崇高的聲譽(yù)。</p><p>  推動大數(shù)據(jù)技術(shù)在各行業(yè)普及的原動力,來自于企業(yè)改善自身經(jīng)營水平、提升經(jīng)營效率的需要。長期以來,困擾企業(yè)最大的難題就是“如何更加了解他的客戶”。索尼公司的創(chuàng)始人出井伸之解釋索尼衰落的根本原因時,說了一段發(fā)人深省的話:“新一代基于互聯(lián)網(wǎng)DNA企業(yè)的核心能力在于利用新模式和新技術(shù)更加貼近消費(fèi)者、深刻理解需求、高效分析信息并做出預(yù)判,所有傳統(tǒng)

64、的產(chǎn)品公司都只能淪為這種新型用戶平臺級公司的附庸,其衰落不是管理能扭轉(zhuǎn)的?;ヂ?lián)網(wǎng)的魅力就是‘the power of low end’”。</p><p>  這句話有兩層含義。第一,傳統(tǒng)企業(yè)衰落的根本原因在于難以貼近消費(fèi)者,難以了解消費(fèi)者的真正的需求。第二,互聯(lián)網(wǎng)公司強(qiáng)項恰恰是天然的貼近消費(fèi)者,了解消費(fèi)者。傳統(tǒng)企業(yè)必然嫁接互聯(lián)網(wǎng)企業(yè)的DNA,否則必將淪為互聯(lián)網(wǎng)企業(yè)的附庸。</p><p>

65、;  這一輪的變革,事關(guān)絕大多數(shù)企業(yè)的命運(yùn)??梢钥吹剑么髷?shù)據(jù)這個視角,可以察企業(yè)的興衰。第一,對大數(shù)據(jù)不關(guān)心,不了解。必步索尼的后塵;第二,擁有大量的數(shù)據(jù),并善加運(yùn)用的公司,必將贏得未來。時代變了,判斷企業(yè)價值的標(biāo)準(zhǔn)、判斷軟件價值的標(biāo)準(zhǔn)也變了。我們判斷軟件價值的標(biāo)準(zhǔn)是它所協(xié)助管理的數(shù)據(jù)的規(guī)模和活性。我們判斷公司價值的標(biāo)準(zhǔn)是其擁有數(shù)據(jù)的規(guī)模、活性,以及收集、運(yùn)用數(shù)據(jù)的能力。</p><p>  圍繞數(shù)據(jù)和最終用戶

66、,我們觀察到計算機(jī)行業(yè)的發(fā)展有三大趨勢:第一應(yīng)用軟件一定會泛互聯(lián)網(wǎng)化。第二,行業(yè)會垂直整合。越靠近終端用戶的公司,在產(chǎn)業(yè)鏈上將擁有更大的發(fā)言權(quán)。第三,數(shù)據(jù)將成為資產(chǎn)。泛互聯(lián)網(wǎng)化是收集數(shù)據(jù)的重要渠道,沒有泛互聯(lián)網(wǎng)化的應(yīng)用軟件,公司就難以獲得用戶的行為數(shù)據(jù);行業(yè)垂直整合趨勢在數(shù)據(jù)運(yùn)用層面,通過搜集大量的用戶數(shù)據(jù),更貼近用戶,更理解用戶,為其提供更適當(dāng)?shù)姆?wù);數(shù)據(jù)成為資產(chǎn)更強(qiáng)調(diào)數(shù)據(jù)的戰(zhàn)略意義。</p><p>  第3

67、章 電子商務(wù)大數(shù)據(jù)時代面對的問題與挑戰(zhàn)</p><p>  大數(shù)據(jù)作為新興產(chǎn)業(yè)熱點(diǎn),在美國政府“大數(shù)據(jù)”計劃的引導(dǎo)和IBM、甲骨文、EMC等跨國企業(yè)的推動下,成為繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的又一亮點(diǎn)。據(jù)開源分析機(jī)構(gòu)Wikibon預(yù)計,2012年全球大數(shù)據(jù)企業(yè)營收為50億美元,未來5年的市場復(fù)合年增長率將達(dá)到58%,到2017年將達(dá)到500億美元。IDC則預(yù)測大數(shù)據(jù)技術(shù)與服務(wù)市場將從2010年的32億美元攀升

68、至2015年的169億美元。產(chǎn)業(yè)界對大數(shù)據(jù)的發(fā)展前景充滿信心,然而從全球總體發(fā)展情況來看,大數(shù)據(jù)當(dāng)前還處于起步階段,理論研究快于產(chǎn)業(yè)發(fā)展,廠商宣傳多于實(shí)際應(yīng)用。加快研發(fā)大數(shù)據(jù)關(guān)鍵技術(shù),布局大數(shù)據(jù)產(chǎn)業(yè)鏈,推動大數(shù)據(jù)示范應(yīng)用,對搶占新一輪信息產(chǎn)業(yè)發(fā)展制高點(diǎn),具有重要意義。第一次工業(yè)革命,英國和法國成為世界的領(lǐng)導(dǎo)者;第二次工業(yè)革命,奠定了美國的世界霸主地位;時至今日,面對云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新技術(shù)、新業(yè)態(tài)、新模式共同支撐的第三次工業(yè)革命,

69、中國面臨歷史性的挑戰(zhàn)與機(jī)遇。隨著國內(nèi)外產(chǎn)業(yè)發(fā)展風(fēng)起云涌,大數(shù)據(jù)時代的浪潮奔騰而至,上海在相關(guān)領(lǐng)域積累了哪些先發(fā)優(yōu)勢?在大數(shù)據(jù)應(yīng)用及產(chǎn)業(yè)化實(shí)踐方面有怎樣的發(fā)展思路?上海市經(jīng)濟(jì)和信息化委員會主任李耀新所描繪的</p><p>  在大數(shù)據(jù)時代,數(shù)據(jù)逐漸成為企業(yè)最重要的資產(chǎn)之一,決策行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗(yàn)和直覺。作為構(gòu)筑在數(shù)據(jù)分析和信息處理基礎(chǔ)上的競爭情報,它的發(fā)展將面臨著全新的信息空間所

70、帶來的機(jī)遇和挑戰(zhàn)。</p><p>  3.1 企業(yè)對大數(shù)據(jù)的認(rèn)知程度</p><p>  大數(shù)據(jù)時代,企業(yè)的生態(tài)環(huán)境發(fā)生了巨大的變化,無處不在的智能終端、隨時在線的網(wǎng)絡(luò)傳輸、互動頻繁的社交網(wǎng)絡(luò),使得企業(yè)有機(jī)會進(jìn)行大規(guī)模的精準(zhǔn)化的競爭對手、競爭態(tài)勢以及消費(fèi)者行為研究。作為企業(yè)智囊團(tuán)的競爭情報,應(yīng)該主動地?fù)肀н@種變化,構(gòu)建基于大數(shù)據(jù)的競爭情報體系。然而,據(jù)Coonect的一份調(diào)查報告顯示,4

71、9%的美國數(shù)據(jù)聚合部門高層將大數(shù)據(jù)定義為所有外部和內(nèi)部的網(wǎng)頁數(shù)據(jù)的聚合,16%的人則定義其為由企業(yè)存儲和管理的大量的內(nèi)部數(shù)據(jù);7%的人則認(rèn)為這是和網(wǎng)絡(luò)相關(guān)的數(shù)據(jù)和內(nèi)容服務(wù)商用來為他們運(yùn)營服務(wù)的數(shù)據(jù)。尤為致命的是,大多數(shù)中小企業(yè)認(rèn)為大數(shù)據(jù)是Google、Amazon、Facebook、阿里巴巴、京東商城等公司才關(guān)心的技術(shù)。對大數(shù)據(jù)認(rèn)識的不足,無疑會使企業(yè)競爭情報工作落后于時代的發(fā)展。如果采取無所作為、固守原狀的鴕鳥政策,那么企業(yè)競爭情報工

72、作將會失去未來的發(fā)展機(jī)會,甚至?xí)ゴ嬖诘囊饬x。</p><p>  在大數(shù)據(jù)時代下,電子商務(wù)的競爭已經(jīng)成為基于數(shù)據(jù)的競爭。數(shù)據(jù)就是電子商務(wù)企業(yè)的財富和金礦,誰擁有大數(shù)據(jù),誰就有制勝的砝碼,誰就可能成為大贏家。然而網(wǎng)絡(luò)上的消費(fèi)者并不會直接告訴企業(yè)其需求,電子商務(wù)企業(yè)必須去收集、分析、跟蹤、對比消費(fèi)者在互聯(lián)網(wǎng)上留下的種種“足跡”、評論、圖片、視頻等。當(dāng)今極速爆炸的信息量遠(yuǎn)遠(yuǎn)超越了大部分企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能

73、力,其實(shí)時性要求也大大超越了現(xiàn)有的計算能力。Columbia Business School’s Center on Global Brand Leadership和NYAMA2012年2月份發(fā)布的報告中指出:39%的營銷業(yè)者表示很難收集到可以及時支持個性化營銷的用戶數(shù)據(jù);51%的營銷者認(rèn)為組織內(nèi)數(shù)據(jù)共享機(jī)制缺乏是應(yīng)用大數(shù)據(jù)的最大障礙。此外,挖掘大數(shù)據(jù)的價值類似沙里淘金,由于大數(shù)據(jù)價值密度低的特性更加增添了數(shù)據(jù)收集工作的巨大性和繁重性。

74、擁有大數(shù)據(jù)是利用大數(shù)據(jù)的前提條件,若不具備整合大數(shù)據(jù)收集和使用的能力,企業(yè)就很難在廣告和多個營銷渠道中提供真正個性化和精確的產(chǎn)品和服務(wù)推薦,而擁有大數(shù)據(jù)的企業(yè)則能在競爭中脫穎而出,不戰(zhàn)而勝。對于中小型電子商務(wù)企業(yè)來</p><p>  3.2競爭情報系統(tǒng)的數(shù)據(jù)處理能力</p><p>  龐大而復(fù)雜的數(shù)據(jù)考驗(yàn)著競爭情報系統(tǒng)的技術(shù)體系和數(shù)據(jù)處理能力。首先在存儲上就是一個非常嚴(yán)重的問題。未來競

75、爭情報系統(tǒng)將會面對TB級的數(shù)據(jù)集,而傳統(tǒng)的數(shù)據(jù)庫部署不能處理TB級別的數(shù)據(jù);其次是傳統(tǒng)的數(shù)據(jù)庫技術(shù)不能對非結(jié)構(gòu)化數(shù)據(jù)直接進(jìn)行處理,目前大多數(shù)的非結(jié)構(gòu)化數(shù)據(jù)分析工具也是轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)之后再進(jìn)行處理。這一方面降低了情報分析的時效,另一方面也丟失了非結(jié)構(gòu)化數(shù)據(jù)隱含的關(guān)系,而這些關(guān)系很有可能是非常重要的情報。另外,從原始數(shù)據(jù)到競爭情報的提煉過程,不僅是對IT技術(shù)人員的挑戰(zhàn),也是對業(yè)內(nèi)專家的挑戰(zhàn),因?yàn)閿?shù)據(jù)間的關(guān)聯(lián)性已不完全都是技術(shù)問題,有些關(guān)聯(lián)

76、只有專業(yè)人員才能知道,必須在生態(tài)學(xué)、數(shù)學(xué)和統(tǒng)計學(xué)、社會網(wǎng)絡(luò)學(xué)、社會行為心理學(xué)等方面專業(yè)人員的幫助和解析下,才能建立起合理的數(shù)據(jù)結(jié)構(gòu)。也就是說,未來的信息提煉需要IT技術(shù)人員和行業(yè)專家的共同合作。</p><p>  2010 年 12 月,美國的科學(xué)技術(shù)顧問委員會、信息技術(shù)顧問委員會向奧巴馬和國會提交的《規(guī)劃數(shù)字化未來》的專門報告中把數(shù)據(jù)收集和使用的工作提到了戰(zhàn)略的高度。該報告的第一個挑戰(zhàn)就是“數(shù)據(jù)”問題,即:“

77、如何收集、保存、維護(hù)、管理、分析、共享正在呈指數(shù)級別增長的數(shù)據(jù)是我們必須面對的一個重要挑戰(zhàn)”。據(jù)統(tǒng)計,82%的公司正受到處理海量信息的挑戰(zhàn),而且他們花很多時間對其進(jìn)行研究,89%的公司因超負(fù)荷處理數(shù)據(jù)而失去銷售機(jī)會。僅僅坐擁大數(shù)據(jù)并不夠,對大數(shù)據(jù)的分析和挖掘能力已成為企業(yè)的核心競爭力。因此,建議電子商務(wù)企業(yè)著手部署“大數(shù)據(jù)戰(zhàn)略”,引進(jìn)和培養(yǎng)大數(shù)據(jù)相關(guān)人才,創(chuàng)建基于大數(shù)據(jù)的研發(fā)團(tuán)隊,從技術(shù)層面上解決大數(shù)據(jù)的困難和挑戰(zhàn),提高挖掘潛在商業(yè)價值

78、的能力,從而有效地指導(dǎo)企業(yè)制訂精確的行動綱領(lǐng)和采取高效的行動。</p><p>  3.3競爭情報體系組織模式</p><p>  在大數(shù)據(jù)時代,數(shù)據(jù)逐漸成為企業(yè)最重要的資產(chǎn)之一,決策行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗(yàn)和直覺。這意味著,作為構(gòu)建在數(shù)據(jù)分析基礎(chǔ)之上的競爭情報系統(tǒng)理應(yīng)成為企業(yè)產(chǎn)品開發(fā)、運(yùn)營設(shè)置以及商業(yè)模式的基礎(chǔ)和出發(fā)點(diǎn)。然而,目前絕大多數(shù)中小型企業(yè)都沒有專門的

79、競爭情報部門和情報分析專家,即使是在一些大型的企業(yè)中,具有競爭情報職能的部門也常常處于分散、被動、輔助的地位。因此,在大數(shù)據(jù)時代,需要從戰(zhàn)略到戰(zhàn)術(shù)層面開始自我的蛻變和進(jìn)化,對現(xiàn)有競爭情報系統(tǒng)的構(gòu)架、組織體系、資源配置和權(quán)力結(jié)構(gòu)進(jìn)行重組,讓基于大數(shù)據(jù)管理與分析的競爭情報職能部門處于企業(yè)整體的上游位置,并組織合理的競爭情報系統(tǒng)構(gòu)架,充分調(diào)用各部門的數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)對大數(shù)據(jù)的整體把握,為企業(yè)提供完整、動態(tài)、實(shí)時的競爭情報。</p>

80、<p>  大數(shù)據(jù)時代,網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)的評論、圖片、視頻、個人信息、興趣愛好、交易信息、訪問的網(wǎng)站等等均被企業(yè)記錄在案。企業(yè)掌握了大量消費(fèi)者的行為數(shù)據(jù),對大數(shù)據(jù)進(jìn)行整合和分析,從而可以發(fā)現(xiàn)新的商機(jī),創(chuàng)造新的價值。然而這些數(shù)據(jù)經(jīng)常包含消費(fèi)者的真實(shí)信息,如在淘寶網(wǎng)上交易時的真實(shí)姓名、家庭住址以及銀行賬號等重要的真實(shí)信息,逐漸引起了我們對個人隱私的擔(dān)憂。正如美國著名的計算機(jī)專家迪博德所言,在信息時代,計算機(jī)內(nèi)的每一個數(shù)據(jù)、每一個

81、字節(jié),都是構(gòu)成一個隱私的血肉。信息加總和數(shù)據(jù)整合,對隱私的穿透力不僅僅是“1+1=2”的,很多時候,是大于 2 的。因此,針對隱私保護(hù)方面的問題,建議電子商務(wù)企業(yè)和國家從以下三方面著手:</p><p> ?。?)電子商務(wù)企業(yè)應(yīng)該恪守行業(yè)道德,不能將消費(fèi)者的個人信息進(jìn)行交易和泄露。</p><p> ?。?)企業(yè)應(yīng)該從技術(shù)層面上采用先進(jìn)的隱私保護(hù)技術(shù)進(jìn)一步加強(qiáng)用戶的隱私保護(hù),解決由于過度開

82、發(fā)或者深度營銷可能造成的用戶隱私侵犯等等問題。</p><p> ?。?)隨著大數(shù)據(jù)應(yīng)用的發(fā)展,隱私保護(hù)的問題和概念在不斷地發(fā)展,因此國家應(yīng)該制定與之相應(yīng)的隱私保護(hù)的法律和法規(guī),確實(shí)保護(hù)公民的隱私權(quán)。</p><p>  3.4相應(yīng)的問題解決方案分析</p><p>  大數(shù)據(jù)時代應(yīng)以智慧創(chuàng)新理念融合大數(shù)據(jù)與云計算,在大數(shù)據(jù)洪流中提升知識價值洞察力,實(shí)施高效實(shí)時個性

83、化運(yùn)作,建立有效增值的商業(yè)模式,確保應(yīng)對A PT 之類的新型安全威脅。電信運(yùn)營商轉(zhuǎn)型中流量經(jīng)營已成共識,即以智能管道與聚合平臺為基礎(chǔ),以擴(kuò)大流量規(guī)模、提升流量層次及豐富流量內(nèi)涵作為基本經(jīng)營方向,并以釋放流量價值為基本目標(biāo),可見大數(shù)據(jù)和云計算的深度融合與此流量經(jīng)營目標(biāo)十分吻合。實(shí)際上已經(jīng)有一些運(yùn)營商借助大數(shù)據(jù)Hadoop云工具管理與分析網(wǎng)絡(luò)中的用戶數(shù)據(jù),為日常運(yùn)維及制定市場戰(zhàn)略等提供有效支撐。</p><p>  

84、針對大數(shù)據(jù)時代的基本特征,加強(qiáng)全方位創(chuàng)新。包括IBM 、EMC 、HP、Microsoft等在內(nèi)的IT 巨頭,紛紛加速收購相關(guān)大數(shù)據(jù)公司進(jìn)行技術(shù)整合,尋找數(shù)據(jù)洪流大潮中新的立足點(diǎn)。而涉及人工智能、機(jī)器學(xué)習(xí)等新技術(shù)的創(chuàng)新應(yīng)用,已初顯效益。</p><p>  將大數(shù)據(jù)時代全方位創(chuàng)新工作和智慧城市發(fā)展緊密結(jié)合。借助移動互聯(lián)網(wǎng)、大數(shù)據(jù)與云計算的融合、智能運(yùn)營管道等,建立智能平臺,優(yōu)化配置城市資源,向真正的智慧城市邁進(jìn)。

85、</p><p>  借助大數(shù)據(jù)創(chuàng)新處理技術(shù)應(yīng)對APT 安全攻擊。APT 安全攻擊的最主要特征為單點(diǎn)隱蔽能力強(qiáng)、攻擊空間路徑不確定、攻擊渠道不確定;同時APT 攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續(xù)性。目前,全流量審計方案具備強(qiáng)大的實(shí)時檢測能力與事后回溯能力,并可將安全工作人員的分析能力、計算機(jī)存儲與運(yùn)算能力組合在一起,是一種較完整的解決方案。</p><p>  第4章 電子商務(wù)

86、大數(shù)據(jù)時代的機(jī)遇</p><p>  4.1重構(gòu)精準(zhǔn)營銷模式</p><p>  在大數(shù)據(jù)時代到來之前,管理者一般會從哪些平臺提取并使用信息數(shù)據(jù)呢?調(diào)查顯示,大部分?jǐn)?shù)據(jù)來源于政府?dāng)?shù)據(jù)中心和企業(yè)的CRM、BI系統(tǒng),其中囊括了公民基本信息、顧客資料、市場促銷、廣告活動、展覽策劃及官方網(wǎng)站中的各類結(jié)構(gòu)化數(shù)據(jù)。而研究顯示,這些信息只能滿足企業(yè)正常營銷管理需求中15%的量能,并不夠給出一個重要洞察和

87、發(fā)現(xiàn)規(guī)律。而其它85%的數(shù)據(jù)——諸如社交媒體數(shù)據(jù)、郵件數(shù)據(jù)、地理位置、音視頻等不斷增加的信息,數(shù)據(jù)量更大、逐漸廣泛應(yīng)用、以傳感器為主的物聯(lián)網(wǎng)信息,以及風(fēng)起云涌的移動3G互聯(lián)網(wǎng)信息等——都屬于大數(shù)據(jù)所覆蓋的非結(jié)構(gòu)性數(shù)據(jù),它們更多地以圖片、視頻等方式呈現(xiàn)。在幾年之前,其可能被束之高閣,價值亦無法被有效挖掘。而如今,大數(shù)據(jù)技術(shù)可以進(jìn)一步提高算法和機(jī)器分析性能,也令這些非結(jié)構(gòu)化數(shù)據(jù)得以充分挖掘和運(yùn)用。對營銷決策數(shù)據(jù)進(jìn)行更好的優(yōu)化。包括沃爾瑪、家

88、樂福、麥當(dāng)勞等知名企業(yè)的一些主要門店,均安裝了搜集運(yùn)營數(shù)據(jù)的裝置,用于跟蹤客戶互動、店內(nèi)客流和預(yù)訂情況,研究人員可以對菜單變化、餐廳設(shè)計以及顧問意見等如何影響物流和銷售額進(jìn)行建模。這些企業(yè)可將這些數(shù)據(jù)與交易記錄結(jié)合起來,并利用大數(shù)據(jù)工具展開分析,從而</p><p>  例如銷售經(jīng)理、財務(wù)經(jīng)理、人事經(jīng)理??它們都帶有”經(jīng)理”二字,但顯然代表了不同的語義,借用語義搜索技術(shù),可以對目標(biāo)對象實(shí)現(xiàn)智能的區(qū)隔判斷。實(shí)現(xiàn)點(diǎn)對

89、點(diǎn)智能廣告模式。對于廣告主而言,廣告的核心問題在于:如何從海量數(shù)據(jù)中尋找目標(biāo)受眾,并投放相應(yīng)的廣告信息。眾所周知,時下市場上大部分廣告并非”點(diǎn)對點(diǎn)”模式,而是”主從”模式。就像單個”老師”(產(chǎn)品)在面對眾多滿地跑的”學(xué)生”(消費(fèi)者等受眾),可想而知即便”老師”再努力,也無法抓住大部分”學(xué)生”,相當(dāng)一部分廣告費(fèi)被白白扔掉。然而隨著大數(shù)據(jù)的發(fā)展,產(chǎn)業(yè)界樂觀地預(yù)期:這些錢或許將被一一撿回來。大數(shù)據(jù)能通過互聯(lián)網(wǎng)點(diǎn)擊流跟蹤個體用戶的行為,更新其偏

90、愛,并實(shí)時模仿其可能的行為,讓點(diǎn)對點(diǎn)的RTB(實(shí)時競價廣告)成為可能。在美國,通過大數(shù)據(jù)的幫助,RTB(實(shí)時競價廣告)能把炙手可熱的目標(biāo)用戶拍賣給廣告商。試想一下:在傳統(tǒng)電梯情景中,進(jìn)入一個謝頂?shù)闹心耆?,而電梯視頻中放映了洗發(fā)水廣告,那廣告費(fèi)無疑打了水漂。而如今有了RTB,廣告需要盯住的不是滿地跑的”學(xué)生”,而是那個喜歡看廣告的目標(biāo)客戶;廣告市場上賣的也不是傳統(tǒng)意義上的廣告位,而是訪問這個廣告位的具體用戶。在大數(shù)</p>

91、<p>  4.2大數(shù)據(jù)時代電商IT基礎(chǔ)設(shè)施的變革</p><p>  后互聯(lián)網(wǎng)時代,PC服務(wù)器成為電商企業(yè)最廣泛使用的IT基礎(chǔ)設(shè)施,隨著業(yè)務(wù)量的發(fā)展,電商企業(yè)大量使用了PC服務(wù)器集群技術(shù)和小型機(jī)技術(shù),用于滿足日益增長的在線業(yè)務(wù)交易量。同時,企業(yè)必須投入大量人/財/物等資源對IT基礎(chǔ)設(shè)施進(jìn)行常規(guī)性的維護(hù)、升級、擴(kuò)容、更新。</p><p>  1、電子商務(wù)中數(shù)據(jù)倉庫系統(tǒng)的發(fā)展&l

92、t;/p><p>  當(dāng)前,電子商務(wù)的數(shù)據(jù)大規(guī)模存在且持續(xù)增長,表現(xiàn)大數(shù)據(jù)技術(shù)與應(yīng)用為大規(guī)模、分布式、異構(gòu)性,使得電商數(shù)據(jù)倉庫系統(tǒng)發(fā)生了顯著變化:數(shù)據(jù)量由TB級升至PB級,并仍在持續(xù)爆炸式增長。有關(guān)調(diào)查顯示,2015年最大數(shù)據(jù)倉庫中的數(shù)據(jù)量將逼近100PB,其增長速度遠(yuǎn)超摩爾定律;分析需求由常規(guī)分析轉(zhuǎn)向深度分析;硬件平臺由高端服務(wù)器轉(zhuǎn)向由中低端硬件構(gòu)成的大規(guī)模集群平臺,并行數(shù)據(jù)庫的規(guī)模增大,成本急劇上升。電商數(shù)據(jù)分析

93、的兩大趨勢和挑戰(zhàn)是:數(shù)據(jù)量的膨脹;數(shù)據(jù)深度分析需求的增長。目前僅具備傳統(tǒng)數(shù)據(jù)處理技術(shù)和信息分析能力的數(shù)據(jù)倉庫和BI工具難以完成PB級大數(shù)據(jù)的數(shù)據(jù)管理和分析工作。</p><p>  2、大數(shù)據(jù)的IT基礎(chǔ)云計算架構(gòu)</p><p>  云計算是新型分布式網(wǎng)絡(luò)計算架構(gòu),特別適合向各種網(wǎng)絡(luò)應(yīng)用提供計算、存儲、網(wǎng)絡(luò)、軟件等在線服務(wù),NIST認(rèn)為這種架構(gòu)具有5個關(guān)鍵功能、3種服務(wù)模式和4種部署式。云

94、計算的特征主要有:按需自助服務(wù)(on-demand self-service)、泛在網(wǎng)絡(luò)訪問(broad net work access)、虛擬池化的資源(resource pooling)、快速可伸縮性(rapidel asticity)、可度量的服務(wù)(measure dservice),這些能力對當(dāng)前電商的基礎(chǔ)IT設(shè)施來說,都是必須要滿足的要求。</p><p>  4.3大數(shù)據(jù)處理模式</p>

95、<p>  大數(shù)據(jù)處理模式從傳統(tǒng)的數(shù)據(jù)庫集群演進(jìn)到云計算Map Reduce大規(guī)模并行處理架構(gòu),實(shí)現(xiàn)任務(wù)的分解處理和結(jié)果合并,從而實(shí)現(xiàn)對可處理數(shù)據(jù)規(guī)模的無限擴(kuò)展,大數(shù)據(jù)處理技術(shù)已被認(rèn)為是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。</p><p><b>  1、數(shù)據(jù)庫集群模式</b></p><p>  集群是指通過協(xié)同工作方式運(yùn)行同一套應(yīng)用程序

96、,針對客戶端及應(yīng)用程序提供單一系統(tǒng)映像,使用特定的連接方式,將硬件設(shè)備結(jié)合起來,構(gòu)成的松散耦合的計算節(jié)點(diǎn)集合,具備以下優(yōu)勢:性能提升、擴(kuò)展性提升、可靠性提升。數(shù)據(jù)庫集群是將集群技術(shù)引入數(shù)據(jù)庫。數(shù)據(jù)庫集群在技術(shù)上具備一定的局限性,具體介紹如下:</p><p>  采用PC服務(wù)器作為功能節(jié)點(diǎn),系統(tǒng)線纜眾多,硬件復(fù)雜度過高,實(shí)施架設(shè)難度較大,可擴(kuò)展性受限;高速互聯(lián)設(shè)備必須通過主機(jī)的PCI插槽與主機(jī)相連,而PCI的傳輸

97、速率無法滿足并行數(shù)據(jù)庫集群節(jié)點(diǎn)間的數(shù)據(jù)通信要求;數(shù)據(jù)庫安全性和數(shù)據(jù)集可擴(kuò)展性提升空間極小,全面提升速度、數(shù)據(jù)同步、安全保證、可擴(kuò)展性4個技術(shù)指標(biāo)是一大難題;隨著設(shè)備量的增加和應(yīng)用的復(fù)雜化,需要迅速追加投入以解決所引起的兼容性和可靠性等各類問題;并行數(shù)據(jù)庫主要采用shared-nothing結(jié)構(gòu),在擴(kuò)展性、容錯性、成本、對異構(gòu)環(huán)境的支持能力等方面有所欠缺并相互影響,因此擴(kuò)展性非常有限,目前尚未有數(shù)千節(jié)點(diǎn)規(guī)模的應(yīng)用案例。</p>

98、<p>  2、Map Reduce框架</p><p>  云計算架構(gòu)由大規(guī)模低端服務(wù)器組成服務(wù)器集群,提供海量存儲空間和大規(guī)模數(shù)據(jù)的處理能力,具備可靠性、擴(kuò)展性以及高可用性,因此中國科學(xué)院計算所、中國移動、百度和淘寶、網(wǎng)易等電子商務(wù)平臺都使用主流云計算平臺Hadoop架構(gòu)進(jìn)行Web搜索、大數(shù)據(jù)分析等。Map Reduce框架包括:分布式文件系統(tǒng)(HDFS)、并行編程模型Map Reduce、并行

99、執(zhí)行引擎。從HDFS角度來看,Hadoop的節(jié)點(diǎn)由存儲并提供定位塊服務(wù)的數(shù)據(jù)節(jié)點(diǎn)(data node)和管理分布式文件系統(tǒng)命名空間的命名節(jié)點(diǎn)(name node)組成,HDFS主從結(jié)構(gòu)的體系架構(gòu)設(shè)計大大簡化了分布式系統(tǒng)架構(gòu)。其文件系統(tǒng)的設(shè)計特點(diǎn)是:元數(shù)據(jù)集中管理、數(shù)據(jù)塊(64MB)分散存儲以保證數(shù)據(jù)的安全性,數(shù)據(jù)復(fù)制(每份數(shù)據(jù)至少3個備份)實(shí)現(xiàn)高度容錯。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)實(shí)時響應(yīng)能力較高,但對于TB級或PB級別的大數(shù)據(jù)集,數(shù)據(jù)挖掘的檢索速

100、度則急劇下降,但引入HDFS與RDBMS相結(jié)合的機(jī)制可以充分利用兩者的優(yōu)勢,實(shí)現(xiàn)高效率的數(shù)據(jù)挖掘與決策支持。Map Reduce由Google設(shè)計,用于對集群上的大數(shù)據(jù)集進(jìn)行并行計算處理,是非關(guān)系型數(shù)據(jù)管理和分析技術(shù)的典</p><p>  圖2 Map Reduce并行計算流程</p><p>  基于Map Reduce計算模型編寫分布式并行程序的主要編碼工作就是實(shí)現(xiàn)map和reduc

101、e函數(shù),其他的分布式存儲、工作調(diào)度、負(fù)載平衡、容錯處理、網(wǎng)絡(luò)通信等復(fù)雜問題均由Map Reduce框架負(fù)責(zé)處理。Map Reduce原理簡單、技術(shù)簡潔、數(shù)據(jù)處理效率高,在系統(tǒng)層面解決了數(shù)據(jù)庫集群難以解決的擴(kuò)展性、容錯性等問題,Map Reduce免費(fèi)開源,基于異構(gòu)廉價服務(wù)器搭建可彈性伸縮的大規(guī)模集群,并行、分布式地處理和分析大規(guī)模數(shù)據(jù),其構(gòu)建成本遠(yuǎn)低于數(shù)據(jù)庫集群所采用的并行數(shù)據(jù)庫。幾種大數(shù)據(jù)處理模式的比較分析見表1,可見,Map Red

102、uce大數(shù)據(jù)處理模式具有相對顯著的優(yōu)勢。</p><p>  表1 大規(guī)模數(shù)據(jù)處理模式的比較分析</p><p>  4.4信息檢索服務(wù)的強(qiáng)大性</p><p>  在IT基礎(chǔ)設(shè)施上,淘寶率先引入云計算技術(shù),阿里云成為我國第一家專門從事云計算服務(wù)的公司,淘寶的所有交易系統(tǒng)都為自建,通過電商平臺集成海量數(shù)據(jù),以下主要以淘寶為例,分析引入Map Reduce大數(shù)據(jù)處理模

103、式給電商業(yè)務(wù)帶來的革命性影響。</p><p>  商品的豐富性直接影響電商的競爭力,而海量的商品數(shù)目、繁雜的分類體系以及復(fù)雜的非結(jié)構(gòu)化的商品屬性數(shù)據(jù)等都需要IT基礎(chǔ)設(shè)施具備足夠的靈活性和強(qiáng)大的檢索能力。云平臺架構(gòu)提供的超大規(guī)模計算能力和大數(shù)據(jù)處理能力能夠提供強(qiáng)大的個性化信息檢索功能,即根據(jù)用戶的個體差異、個人興趣和需求特征進(jìn)行智能海量檢索,并高效率返回高查全率和查準(zhǔn)率檢索結(jié)果。另外,還能實(shí)現(xiàn)信息推送服務(wù)、熱點(diǎn)信

104、息推送、信息推薦等新型信息檢索服務(wù)。云計算的技術(shù)優(yōu)勢使得信息檢索和服務(wù)可以很好地解決長期存在的人類自然語言理解、知識推理等問題,充分發(fā)揮深度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的功能,以迅速準(zhǔn)確地分析處理用戶信息行為、理解用戶自然語言表達(dá)并進(jìn)行相應(yīng)智能檢索,得出符合用戶需求的信息和產(chǎn)品,提高用戶服務(wù)的速度和精準(zhǔn)度,最大限度地提升客戶滿意度。淘寶商品具備數(shù)十種屬性,還包括視頻、圖像等多媒體數(shù)據(jù),淘寶用戶可以通過顏色、價格、品牌等幾十種屬性在海量數(shù)據(jù)中進(jìn)行智

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論