2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、<p><b>  目 錄</b></p><p><b>  摘要1</b></p><p>  AbstractII</p><p><b>  第1章 緒論1</b></p><p>  1.1選題背景與意義1</p><p> 

2、 1.2電子商務的發(fā)展現(xiàn)狀2</p><p>  1.3我國電子商務的發(fā)展階段3</p><p>  1.3.1電子商務的PC互聯(lián)時代3</p><p>  1.3.2電子商務的移動互聯(lián)時代4</p><p>  1.3.3電子商務的大數(shù)據(jù)時代4</p><p>  1.4研究方法與主要研究內(nèi)容5</

3、p><p>  第2章 電子商務的大數(shù)據(jù)時代6</p><p>  2.1電子商務大數(shù)據(jù)時代概述6</p><p>  2.2電子商務大數(shù)據(jù)時代的特點8</p><p>  2.2.1數(shù)據(jù)量大8</p><p>  2.2.2數(shù)據(jù)類型多樣9</p><p>  2.2.3數(shù)據(jù)處理速度快1

4、0</p><p>  2.2.4數(shù)據(jù)價值密度低10</p><p>  2.3電子商務大數(shù)據(jù)時代的SWOT分析11</p><p>  2.3.1優(yōu)勢分析11</p><p>  2.3.2劣勢分析12</p><p>  2.3.3機會分析12</p><p>  2.3.4威脅分

5、析13</p><p>  2.4電子商務大數(shù)據(jù)時代的發(fā)展前景13</p><p>  第3章 電子商務大數(shù)據(jù)時代面對的問題與挑戰(zhàn)16</p><p>  3.1 企業(yè)對大數(shù)據(jù)的認知程度16</p><p>  3.2競爭情報系統(tǒng)的數(shù)據(jù)處理能力17</p><p>  3.3競爭情報體系組織模式18<

6、/p><p>  3.4相應的問題解決方案分析18</p><p>  第4章 電子商務大數(shù)據(jù)時代的機遇20</p><p>  4.1重構精準營銷模式20</p><p>  4.2大數(shù)據(jù)時代電商IT基礎設施的變革22</p><p>  4.3大數(shù)據(jù)處理模式22</p><p>  4

7、.4信息檢索服務的強大性24</p><p>  4.5處理能力快速性25</p><p>  4.6數(shù)據(jù)分析的精準性25</p><p>  4.7信息的安全服務25</p><p>  第5章 阿里巴巴電子商務大數(shù)據(jù)時代實證分析27</p><p>  5.1阿里大數(shù)據(jù)信息采集與推送27</p&g

8、t;<p>  5.2阿里大數(shù)據(jù)戰(zhàn)略發(fā)展歷程28</p><p>  5.2.1數(shù)據(jù)產(chǎn)品戰(zhàn)略28</p><p>  5.2.2數(shù)據(jù)平臺戰(zhàn)略28</p><p>  5.3阿里大數(shù)據(jù)戰(zhàn)略存在的安全隱患及解決對策29</p><p><b>  結束語30</b></p><p&

9、gt;<b>  致謝31</b></p><p><b>  參考文獻32</b></p><p><b>  第1章 緒論</b></p><p>  1.1選題背景與意義</p><p>  根據(jù)IDC機構的定義,“大數(shù)據(jù)”是指為了更經(jīng)濟、更有效地從高頻率、大容量、不

10、同結構類型的數(shù)據(jù)中獲取有價值的信息而設計的新一代架構技術,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展創(chuàng)新。十年之前,電影《天下無賊》中的經(jīng)典對白“21世紀什么最貴?人才”被人們爭相傳頌;十年之后,這個問題的答案與時俱進地變?yōu)楫斍笆袌鰺狳c——數(shù)據(jù)!當然,此數(shù)據(jù)已非傳統(tǒng)意義的數(shù)據(jù),而是海量、爆發(fā)式增長的“大數(shù)據(jù)”。作為繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)的又一次顛覆性技術浪潮,大數(shù)據(jù)被人們視為智慧城市的源泉、精準營銷的

11、根基,其與傳統(tǒng)BI究竟有何區(qū)別?未來企業(yè)應該如何挖掘海量數(shù)據(jù)背后的潛在價值?自2009年以來,從IBM、甲骨文到谷歌、亞馬遜、Face book,從IDC、Gartner到麥肯錫、普華永道、埃森哲,從《紐約時報》到《福布斯》、《財富》周刊,從《科學》、《自然》雜志到MIT《斯隆管理評論》——產(chǎn)業(yè)巨頭的實踐探索、連篇累牘的新聞報道,令“大數(shù)據(jù)”概念深入人心。顧名思義,“大數(shù)據(jù)”的精髓在于“大”,其不僅說明數(shù)據(jù)的數(shù)量龐大,還意味著數(shù)據(jù)種類繁

12、多、結構復雜,變化速度飛快。大數(shù)據(jù)呈現(xiàn)三種特</p><p>  1.2電子商務的發(fā)展現(xiàn)狀</p><p>  隨著電子商務的發(fā)展,企業(yè)開始應用“虛擬購物”手段在眾多購物場所開展逼近現(xiàn)實的市場研究,以期借助電腦系統(tǒng)在信息處理方面的優(yōu)勢,用靈活、科學的方法去觀察和分析消費行為,加速市場研究過程。根據(jù)哈佛商學院研究人員對多種產(chǎn)品銷售的分析?!疤摂M購物”能獲得較為可靠、準確的市場信息,其記錄數(shù)據(jù)

13、與實際購物數(shù)據(jù)之間的相關系數(shù)大多在90%以上。由此看來,“虛擬購物”能夠克服傳統(tǒng)市場研究手段的缺點,對企業(yè)營銷大有裨益。但電子商務對營銷的影響并不局限在市場研究的范圍內(nèi)?;ヂ?lián)網(wǎng)是一個國際性的開放系統(tǒng),企業(yè)一旦涉足其中,就要面對世界各國的潛在顧客即訪問者,于是自覺或不覺地成為進行國際營銷的國際性企業(yè)。這就促使企業(yè)特別是以往針對本地市場的中小企業(yè)去考慮更為復雜的營銷戰(zhàn)略問題。根據(jù)目前對“在線購物”所進行的研究,企業(yè)與顧客在互聯(lián)網(wǎng)上的交易一般

14、是起源于顧客對企業(yè)或產(chǎn)品、服務的尋找,即對互聯(lián)網(wǎng)上相關企業(yè)或產(chǎn)品、服務信息的瀏覽或訪問。這與以往市場交易的起始方向似正相反,從而帶來營銷及相應經(jīng)營規(guī)則的重大改變:其一,根據(jù)顧客的訪問信息,企業(yè)可以更明確地界定潛在市場。營銷的重點,是最大限度地令訪問者成為消費者,該項工作也可望因企</p><p>  1.3我國電子商務的發(fā)展階段</p><p>  1.3.1電子商務的PC互聯(lián)時代<

15、/p><p>  電子商務的起源可以追溯到互聯(lián)網(wǎng)(Internet)和電子數(shù)據(jù)交換的出現(xiàn)。前者為電子商務的推廣應用奠定了基礎;后者是電子商務的初始應用方式,至今仍是電子商務的重要組成部分。60年代末期,美國國防部高級項目管理處建立了聯(lián)接美國各大學與國防工業(yè)合同商之間的電腦網(wǎng)絡ARPANE,繼而開發(fā)了該網(wǎng)絡的標準通訊協(xié)議TCP/IP。至80年代中期,美國國家科學基金會利用ARPANET的模式形成了自己的電腦網(wǎng)絡NSFN

16、E,并逐漸與ARpA NET合并。與此同時,諸如Usenet、ll TNET,經(jīng)由各自的電腦系統(tǒng)以共用的交易標準進行商業(yè)信息的交換,這就是電子數(shù)據(jù)交換。70年代中期,美國運輸行業(yè)制定了T l)cc交易標準,率先應用這一先進的商務手段。其后美國國家標準局在T l)CC的基礎上制定了ANslX12交易標準,并負責對增值網(wǎng)的合格認證工作,促進了電子數(shù)據(jù)交換在多個產(chǎn)業(yè)部門的應用。近年來,電子數(shù)據(jù)交換的管道進一步從私人線路和增值網(wǎng)擴展到互聯(lián)網(wǎng)上。

17、用戶急劇增多。據(jù)估計,目前全美使用電子數(shù)據(jù)交換的企業(yè)已經(jīng)超過5萬家,到2000年時將達20萬家左右,其應用前景由此可見一斑。1993年9月,美國克林頓政府發(fā)布</p><p>  圖1電子商務的概念框架</p><p>  1.3.2電子商務的移動互聯(lián)時代</p><p>  移動互聯(lián)網(wǎng)是一個全國性的、以寬帶IP為技術核心的,可同時提供語音、傳真、數(shù)據(jù)、圖像、多媒體

18、等高品質(zhì)電信服務的新一代開放的電信基礎網(wǎng)絡。簡單地說,移動互聯(lián)網(wǎng)能讓用戶在移動中通過移動設備(如手機、iPod等移動終端)隨時、隨地訪問Internet、獲取信息,進行商務、娛樂等各種網(wǎng)絡服務。終端、網(wǎng)絡與應用是移動互聯(lián)網(wǎng)的3個要素。正是由于中國3G網(wǎng)絡的投入運營,iPhone、Android等智能手機終端以及應用平臺的出現(xiàn),才使得移動互聯(lián)網(wǎng)得以如此迅猛地發(fā)展。中國目前約有8.4億的手機用戶、3.02億的手機網(wǎng)民,新興且前景光明的移動互

19、聯(lián)網(wǎng)成為眾企業(yè)垂涎的蛋糕。諸如新浪微博、街旁、米聊等,甚至是開心網(wǎng)、優(yōu)酷也都紛紛推出自己的手機客戶端。中國社會化媒體幾乎都可以從國外找到原型,從You tube到優(yōu)酷、土豆,從Twitter到新浪、騰訊微博,以及各種消費點評、問答百科、位置服務等,這些媒體為普通用戶提供了極大的互動交流空間。隨著中國的互聯(lián)網(wǎng)產(chǎn)業(yè)進入一個持續(xù)、快速、穩(wěn)定的發(fā)展時期,豐富多彩的互聯(lián)網(wǎng)應用已成為國人生活中必不可少的部分。移動互聯(lián)網(wǎng)應用繽紛多彩,娛樂、商務、信息

20、服務等各種各樣應用開始滲入人們</p><p>  1.3.3電子商務的大數(shù)據(jù)時代</p><p>  大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。業(yè)界將其特點歸結為4V——Volume(數(shù)據(jù)體量巨大)、Velocity(數(shù)據(jù)類型繁多)、Variety(價值密

21、度低)、Veracity(處理速度快)。與傳統(tǒng)數(shù)據(jù)相比較,大數(shù)據(jù)包含數(shù)據(jù)交換、互聯(lián)、質(zhì)量、安全等數(shù)據(jù)體系建設以及建設上層數(shù)據(jù)應用的整個生態(tài)圈。在大數(shù)據(jù)時代浪潮中,時間每過去3分鐘,全球?qū)a(chǎn)生6.12億封郵件,6000萬張照片,將會有18.3萬小時的音樂被下載,有76.4個視頻在優(yōu)酷被上傳,有14.1萬個程序在蘋果商店被使用,支付寶上將產(chǎn)生4400萬人民幣的交易額。這種爆炸性增長的數(shù)據(jù)量對于企業(yè)發(fā)展來說,是一筆取之不盡、用之不竭的財富。

22、阿里巴巴、京東商城等眾多網(wǎng)絡巨頭正因為看中了這座金礦,紛紛提出將數(shù)據(jù)作為未來發(fā)展的重要戰(zhàn)略之一。2013年,電商的競爭很大程度上就是大數(shù)據(jù)的競爭,大數(shù)據(jù)將貫穿整個電商的業(yè)務流程,成為公司核心競爭力。目前,大數(shù)據(jù)在現(xiàn)實世界中已有著非常廣泛的分布和應用,包括醫(yī)療信息、視頻監(jiān)控</p><p>  1.4研究方法與主要研究內(nèi)容</p><p>  近年來,伴隨著互聯(lián)網(wǎng)、3S技術(GPS、GIS、

23、RS)、以及智能手機的迅速發(fā)展,人文社會科學領域的研究數(shù)據(jù)獲取與處理已經(jīng)出現(xiàn)了新的趨向。主要包括:利用軟件對網(wǎng)絡數(shù)據(jù)進行挖掘;利用GPS或LBS設備,結合GIS或網(wǎng)絡日志來采集與分析居民行為數(shù)據(jù);利用網(wǎng)絡地圖對獲取的數(shù)據(jù)進行可視化開發(fā)。這些技術可以作為大數(shù)據(jù)時代城市時空間行為研究數(shù)據(jù)的重要來源,將有利于擴大研究的范圍,并增加研究結果的精確性。網(wǎng)絡數(shù)據(jù)挖掘是計算機科學研究的重要內(nèi)容,包括內(nèi)容挖掘、結構挖掘和使用挖掘3種類型。其中,內(nèi)容挖掘

24、是對網(wǎng)頁文本和媒體數(shù)據(jù)的獲取,用于研究用戶活動狀態(tài)和特征;結構挖掘是對網(wǎng)頁鏈接結構進行分析,用于評估網(wǎng)頁的資源量;使用挖掘則是通過挖掘網(wǎng)頁訪問的日志記錄,以便提供個性化的產(chǎn)品和服務以此來研究電子商務的大數(shù)據(jù)時代。</p><p>  第2章 電子商務的大數(shù)據(jù)時代</p><p>  近年來,以互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)、廣電網(wǎng)、無線寬帶網(wǎng)為基礎的智慧城市建設帶來了數(shù)據(jù)量的爆發(fā)式增長,“大數(shù)據(jù)”

25、像血液一樣遍布智慧交通、智慧醫(yī)療、智慧生活、智慧營銷等城市生活的方方面面,并推動社會職能部門及企業(yè)決策者們從“經(jīng)驗治理”向“科學治理”轉(zhuǎn)型。如何挖掘海量數(shù)據(jù)的潛在價值,為城市治理、市民生活、企業(yè)營銷提供可靠的決策建議,是智慧城市發(fā)展所面臨的重要課題,亦是企業(yè)在未來市場競爭中搶占先機的關鍵。</p><p>  2.1電子商務大數(shù)據(jù)時代概述</p><p>  “大數(shù)據(jù)”時代(“Age of

26、 Big Data”)這一說法的流行得力于全球知名咨詢公司麥肯錫的倡導,英國牛津大學教授維克托·邁爾·舍恩伯格更在其《大數(shù)據(jù)時代:生活、工作和思維的改變》中大聲疾呼,斷言一個史無前例的大數(shù)據(jù)時代已經(jīng)來臨!“大數(shù)據(jù)”(“Big data”)顯然并不是一個嚴格的學理性概念,而更多地是一個描述性話語。所謂大數(shù)據(jù),也就是大型數(shù)據(jù)集,一般在10TB規(guī)模左右。多個數(shù)據(jù)集一整合,就會形成PB級,甚至以E、Z等為計量單位的數(shù)據(jù)量。過

27、去幾年全世界產(chǎn)生的數(shù)據(jù)量甚至超過了歷史上4萬年來產(chǎn)生的數(shù)據(jù)量的總和。這種激增的數(shù)據(jù)量勢必突破傳統(tǒng)常規(guī)軟件的信息處理能力極限。大數(shù)據(jù)的說法正是在與傳統(tǒng)數(shù)據(jù)庫的比照中形成的,也注定只能是一個暫時性的權宜說法。隨著信息技術的進一步發(fā)展,更大的數(shù)據(jù)集合會不斷出現(xiàn),今日所謂的“大數(shù)據(jù)”勢必相形見絀。</p><p>  IT業(yè)界通常將大數(shù)據(jù)的特征概括為四個“V”:體量(volumes)巨、類別(variety)多、速度(V

28、elocity)快、價值(Value)大。大數(shù)據(jù)之大首先是指體量大。大數(shù)據(jù)和傳統(tǒng)所說的數(shù)據(jù)庫有所不同。誕生在20世紀70年代的傳統(tǒng)數(shù)據(jù)庫是小型的、單一的、孤立的,基于小范圍的抽樣樣本統(tǒng)計。而大數(shù)據(jù)則要求窮盡一切相關樣本,搜集盡可能全面的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)集擁有的不是支離破碎的割裂數(shù)據(jù),不是數(shù)據(jù)片段,而是完整的數(shù)據(jù)。數(shù)據(jù)的海量與數(shù)據(jù)的完整性使大數(shù)據(jù)有著傳統(tǒng)的數(shù)據(jù)庫無法比擬的信息優(yōu)勢。大數(shù)據(jù)之大還在于氣魄大、境界大。大數(shù)據(jù)的來源也有別于傳統(tǒng)

29、的數(shù)據(jù)庫,顯示出了跨領域、跨門類、多類別的整合氣魄和越界意識,如果說非結構化數(shù)據(jù)、半結構化數(shù)據(jù)一直沒有被納入經(jīng)典數(shù)據(jù)庫技術SQL的視野,那么大數(shù)據(jù)的數(shù)據(jù)則源自多種數(shù)據(jù)源,是一種綜合數(shù)據(jù),兼收并蓄了結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)等各種類別和格式的數(shù)據(jù),尤其是包含了大量的視頻音頻數(shù)據(jù)。這使其信息占有量和信息復雜度為傳統(tǒng)數(shù)據(jù)庫所無法比擬。這些海量數(shù)據(jù)本身就會凸顯以往不為人們注意的事物的多方面的關聯(lián)性,因此這種數(shù)據(jù)更能顯示出多方面的信息

30、內(nèi)涵,信息質(zhì)量更</p><p>  處理,顯示出了前所未有的價值。但大數(shù)據(jù)潮流的深層根源顯然還是利潤最大化的商業(yè)沖動,大數(shù)據(jù)產(chǎn)業(yè)說到底不過是數(shù)字經(jīng)濟、知識經(jīng)濟的最新形態(tài),這也是“大數(shù)據(jù)”這個為管理咨詢公司、經(jīng)濟學家、IT界巨頭歡欣鼓舞的概念招人質(zhì)疑的重要原因。但是商業(yè)化潮流既可能導致文化的沙化、社會的急功近利、商業(yè)的唯利是圖,也會成為文化創(chuàng)新的不竭動力,開啟知識創(chuàng)造的新天地和新境界。事實上,正是近年來數(shù)字化領域

31、的商業(yè)逐利沖動驅(qū)使商家不斷改換思路,升級設備,實現(xiàn)數(shù)字技術創(chuàng)新,提升數(shù)字服務水準,開辟新的產(chǎn)業(yè)領域,開發(fā)新的文化產(chǎn)品,開創(chuàng)了蔚為潮流的大數(shù)據(jù)產(chǎn)業(yè),也開啟了有別于互聯(lián)網(wǎng)時代的“數(shù)字化生存“的新境界。</p><p>  2.2電子商務大數(shù)據(jù)時代的特點</p><p>  大數(shù)據(jù)是一個較為抽象的概念,正如信息學領域大多數(shù)新興概念,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義。在維基百科中關于大數(shù)據(jù)的定義為:

32、大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。個人認為,這并不是一個精確的定義,因為無法確定常用軟件工具的范圍,可容忍時間也是個概略的描述。IDC在對大數(shù)據(jù)作出的定義為:大數(shù)據(jù)一般會涉及2種或2種以上數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實時數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會增長60%以上。這個定義給出了量化標準,但只強調(diào)數(shù)據(jù)量大,種類多,增長快等數(shù)據(jù)本身的特征。研究機構Gartne

33、r給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個描述性的定義,在對數(shù)據(jù)描述的基礎上加入了處理此類數(shù)據(jù)的一些特征,用這些特征來描述大數(shù)據(jù)。當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳&

34、lt;/p><p><b>  2.2.1數(shù)據(jù)量大</b></p><p>  大數(shù)據(jù)聚合在一起的數(shù)據(jù)量是非常大的,根據(jù)IDC的定義至少要有超過100TB的可供分析的數(shù)據(jù),數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。導致數(shù)據(jù)規(guī)模激增的原因有很多,首先是隨著互聯(lián)網(wǎng)絡的廣泛應用,使用網(wǎng)絡的人、企業(yè)、機構增多,數(shù)據(jù)獲取、分享變得相對容易,以前,只有少量的機構可以通過調(diào)查、取樣的方法獲取數(shù)據(jù),同

35、時發(fā)布數(shù)據(jù)的機構也很有限,人們難以短期內(nèi)獲取大量的數(shù)據(jù),而現(xiàn)在用戶可以通過網(wǎng)絡非常方便的獲取數(shù)據(jù),同時用戶在有意的分享和無意的點擊、瀏覽都可以快速的提供大量數(shù)據(jù);其次是隨著各種傳感器數(shù)據(jù)獲取能力的大幅提高,使得人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)量激增。早期的單位化數(shù)據(jù),對原始事物進行了一定程度的抽象,數(shù)據(jù)維度低,數(shù)據(jù)類型簡單,多采用表格的形式來收集、存儲、整理,數(shù)據(jù)的單位、量綱和意義基本統(tǒng)一,存儲、處理的只是數(shù)值而

36、已,因此數(shù)據(jù)量有限,增長速度慢而隨著應用的發(fā)展,數(shù)據(jù)維度越來越高,描述相同事物所需的數(shù)據(jù)量越來越大。以當前最為普遍的網(wǎng)絡數(shù)據(jù)為例,早期網(wǎng)絡上的數(shù)據(jù)以文本和一維的音頻為主,維度低,單位數(shù)據(jù)量小。近年來,圖像、視頻等二維數(shù)據(jù)大規(guī)模涌現(xiàn),而隨著三維掃描設備以及Kinect</p><p>  2.2.2數(shù)據(jù)類型多樣</p><p>  數(shù)據(jù)類型繁多,復雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量

37、龐大,但通常是事先定義好的結構化數(shù)據(jù)。結構化數(shù)據(jù)是將事物向便于人類和計算機存儲、處理、查詢的方向抽象的結果,結構化在抽象的過程中,忽略一些在特定的應用下可以不考慮的細節(jié),抽取了有用的信息。處理此類結構化數(shù)據(jù),只需事先分析好數(shù)據(jù)的意義以數(shù)據(jù)間的相關屬性,構造表結構來表示數(shù)據(jù)的屬性,數(shù)據(jù)都以表格的形式保存在數(shù)據(jù)庫中,數(shù)據(jù)格式統(tǒng)一,以后不管再產(chǎn)生多少數(shù)據(jù),只需根據(jù)其屬性,將數(shù)據(jù)存儲在合適的位置,就可以方便的處理、查詢,一般不需要為新增的數(shù)據(jù)顯

38、著的更改數(shù)據(jù)聚集、處理、查詢方法,限制數(shù)據(jù)處理能力的只是運算速度和存儲空間。這種關注結構化信息,強調(diào)大眾化、標準化的屬性使得處理傳統(tǒng)數(shù)據(jù)的復雜程度一般呈線性增長,新增的數(shù)據(jù)可以通過常規(guī)的技術手段處理。而隨著互聯(lián)網(wǎng)絡與傳感器的飛速發(fā)展,非結構化數(shù)據(jù)大量涌現(xiàn),非結構化數(shù)據(jù)沒有統(tǒng)一的結構屬性,難以用表結構來表示,在記錄數(shù)據(jù)數(shù)值的同時還需要存儲數(shù)據(jù)的結構,增加了數(shù)據(jù)存儲、處理的難度。而時下在網(wǎng)絡上流動著的數(shù)據(jù)大部分是非結構化數(shù)據(jù),人們上網(wǎng)不只是

39、看看新聞,發(fā)送文字郵件,還會上傳下載照片、視頻、發(fā)送微博等非</p><p>  2.2.3數(shù)據(jù)處理速度快</p><p>  要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡等信息獲取、傳播技術的飛速發(fā)展普及,數(shù)據(jù)的產(chǎn)生、發(fā)布越來越容易,產(chǎn)生數(shù)據(jù)的途徑增多,個人甚至成為了數(shù)據(jù)產(chǎn)生的主體之一,數(shù)據(jù)呈爆炸的形式快速增長,新數(shù)據(jù)不斷涌現(xiàn),快速增長的數(shù)據(jù)

40、量要求數(shù)據(jù)處理的速度也要相應的提升,才能使得大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢,反而成了快速解決問題的負擔。同時,數(shù)據(jù)不是靜止不動的,而是在互聯(lián)網(wǎng)絡中不斷流動,且通常這樣的數(shù)據(jù)的價值是隨著時間的推移而迅速降低的,如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義。此外,在許多應用中要求能夠?qū)崟r處理新增的大量數(shù)據(jù),比如有大量在線交互的電子商務應用,就具有很強的時效性,大數(shù)據(jù)以數(shù)據(jù)流的形式產(chǎn)生

41、、快速流動、迅速消失,且數(shù)據(jù)流量通常不是平穩(wěn)的,會在某些特定的時段突然激增,數(shù)據(jù)的涌現(xiàn)特征明顯,而用戶對于數(shù)據(jù)的響應時間通常非常敏感,心理學實驗證實,從用戶體驗的角度,瞬間(moment,3秒鐘)是可以容忍的最大極限,對于大數(shù)據(jù)應用而言,很多情況下都必須要在1秒鐘或者瞬間內(nèi)形成結果,否則處理結果</p><p>  2.2.4數(shù)據(jù)價值密度低</p><p>  數(shù)據(jù)價值密度低是大數(shù)據(jù)關注的

42、非結構化數(shù)據(jù)的重要屬性。傳統(tǒng)的結構化數(shù)據(jù),依據(jù)特定的應用,對事物進行了相應的抽象,每一條數(shù)據(jù)都包含該應用需要考量的信息,而大數(shù)據(jù)為了獲取事物的全部細節(jié),不對事物進行抽象、歸納等處理,直接采用原始的數(shù)據(jù),保留了數(shù)據(jù)的原貌,且通常不對數(shù)據(jù)進行采樣,直接采用全體數(shù)據(jù),由于減少了采樣和抽象,呈現(xiàn)所有數(shù)據(jù)和全部細節(jié)信息,可以分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應用,大數(shù)據(jù)關注的非結構化數(shù)據(jù)的價值密度偏低

43、,以當前廣泛應用的監(jiān)控視頻為例,在連續(xù)不間斷監(jiān)控過程中,大量的視頻數(shù)據(jù)被存儲下來,許多數(shù)據(jù)可能是無用,對于某一特定的應用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數(shù)據(jù)可能僅僅有一兩秒,大量不相關的視頻信息增加了獲取這有效的一兩秒數(shù)據(jù)的難度。但是大數(shù)據(jù)的數(shù)據(jù)密度低是指相對于特定的應用,有效的信息相對于數(shù)據(jù)整體是偏少的,信息有效與否也是相對的,對于某些應用是無效的信息對于另外一些應用則成為最關鍵的信息,數(shù)據(jù)的價值也是相對的,有時一條微不足道

44、的細節(jié)數(shù)據(jù)可能造成巨大的影響,比如網(wǎng)絡中的一條幾十個字符的微博,就可能通過轉(zhuǎn)發(fā)而快速擴散,導</p><p>  2.3電子商務大數(shù)據(jù)時代的SWOT分析</p><p><b>  2.3.1優(yōu)勢分析</b></p><p><b>  1、資源優(yōu)勢</b></p><p>  對檔案館而言,其最大

45、的優(yōu)勢在于所擁有的資源。首先,檔案館信息資源總量龐大且增長迅速。2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011年各級國家檔案館館藏已達3.3億卷,到2020年各級國家檔案館館藏將達到6億多卷。其次,檔案館數(shù)據(jù)資源種類繁多。在檔案館的數(shù)據(jù)資源中,既有數(shù)字化的紙質(zhì)檔案、接收進館的電子文件、音視頻檔案等,也有用戶利用信息、服務數(shù)據(jù)等數(shù)據(jù)資源。再次,檔案館數(shù)據(jù)資源價值很高。與其它數(shù)據(jù)資源

46、等相比,“檔案是一種最真實、最可靠、最具權威性與憑證性的原生信息資源”,這就使得數(shù)據(jù)洪流時代檔案的價值與作用更加凸顯。</p><p><b>  2、行業(yè)領先</b></p><p>  首先,各級國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學文化事業(yè)機構,是永久保管檔案的基地,是社會各界利用檔案史料的中心。作為一種機構性存在與制度性安排,檔案館的公共性、服務性、公平性

47、、永久性等特征,使得檔案館成為人們心目中最系統(tǒng)、最值得信賴的數(shù)據(jù)資源庫。大數(shù)據(jù)時代,檔案館維護和傳承記憶的功能將更加重要,構建一個“基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體記憶的建構和傳承提供文獻支撐的‘中國記憶’數(shù)字將成為檔案人新的目標與使命。其次,檔案館在數(shù)據(jù)處理上具有豐富的經(jīng)驗。考察數(shù)據(jù)生命周期,涉及到數(shù)據(jù)生成、采集、傳輸、處理、分析、應用等階段,而這也恰恰是檔案館熟悉的業(yè)務范疇。因此,

48、檔案館可以通過模擬或借鑒傳統(tǒng)檔案處理的整套業(yè)務規(guī)范或流程來指導大數(shù)據(jù)的處理,“對知識規(guī)范性控制的思想和技術方法恰巧在大數(shù)據(jù)領域有了用武之地”。</p><p><b>  2.3.2劣勢分析</b></p><p><b>  1、認識問題</b></p><p>  作為一個檔案大國,幾千年檔案工作的歷史積淀在我國形成了

49、豐富多彩的檔案文化,也形成了一套獨特的檔案思維模式。大數(shù)據(jù)時代,有可能出現(xiàn)兩種認識問題:一是沒有大數(shù)據(jù)意識,即無視大數(shù)據(jù)時代的來臨,采取固守原狀的鴕鳥政策,這將使檔案館失去未來的發(fā)展機會,甚至會失去存在的意義。二是泛大數(shù)據(jù)化,即不加鑒別地收集保存數(shù)據(jù),從而使檔案館陷入數(shù)據(jù)沼澤,進而喪失自己的特色,顯然這也是檔案館無法承受的。因此,大數(shù)據(jù)背景下,科學認識大數(shù)據(jù)的內(nèi)涵,合理地選擇切入點,將是檔案館在大數(shù)據(jù)時代立足的首要問題,而這或許也是檔案

50、館最難解決的一個問題。</p><p><b>  2、人才瓶頸</b></p><p>  在檔案事業(yè)快速發(fā)展的今天,我國的檔案人才隊伍建設卻不盡如人意。一是專業(yè)人才不足。以2006年為例,全國各?。ǔ_灣外)、自治區(qū)、直轄市各級檔案館中具備博士學位且畢業(yè)于檔案學專業(yè)的工作人員為零,具備碩士學位且畢業(yè)于檔案學專業(yè)的工作人員只有26人,具備學士學位且畢業(yè)于檔案學專業(yè)的

51、工作人員只有1598人。二是信息技術人才的匱乏?!按髷?shù)據(jù)泡沫如果現(xiàn)在存在的話,恐怕并非數(shù)據(jù)的作用被過分夸大,而主要是由于真正具備資質(zhì)的數(shù)據(jù)科學家數(shù)量不足導致的?!睋?jù)統(tǒng)計,到2018年美國將面臨150萬個掌握大數(shù)據(jù)應用分析方法的技術經(jīng)理和分析師缺口,另缺14萬至19萬具有“深度分析”經(jīng)驗的工作者。從目前來看,大數(shù)據(jù)成功的案例無不是特定的項目,例如“啤酒與尿布”,因此,現(xiàn)階段檔案館人員最需要的是懂得用戶的需求,因為數(shù)據(jù)越大,用戶的個性需求就

52、越多樣,服務切口就越小。毫無疑問,這需要檔案人員擁有極強的洞察能力。</p><p><b>  2.3.3機會分析</b></p><p><b>  1、需求旺盛</b></p><p>  隨著信息環(huán)境的變化和社會檔案意識的覺醒,用戶的檔案信息需求層面不斷加深,需求領域也不斷拓展。首先,精品化的信息需求與專業(yè)化的知識

53、服務要求。隨著社會檔案意識的增強,“用戶關注的已不再是簡單的獲取文獻,而是如何從繁雜的信息環(huán)境中捕獲和析取解決所面臨問題的信息內(nèi)容,并將這些信息融化或重組為相應的知識或解決方案”。其次,個性化的信息需求與互動式的信息服務要求。隨著用戶信息素養(yǎng)的不斷提高,檔案用戶已從信息服務的“被動接受者”轉(zhuǎn)換為“主動選擇者”,他們更希望獲得一種為自己量身定做的個性化信息服務。同時,用戶在獲取信息的過程中,希望能與館員進行人際交流與相互溝通,從而獲取文化

54、的熏陶、思想的碰撞及心靈的浸潤。</p><p><b>  2、政策導向</b></p><p>  2010年國家檔案局《數(shù)字檔案館建設指南》頒布,提出運用多種技術手段“采集具有重要保存價值的各類數(shù)字信息,進行資源整合”、“對數(shù)字檔案信息進行深度挖掘,開展增值服務”、“開展檔案利用訪問量統(tǒng)計、分布分析、輿情分析等工作”。2012年楊冬權在全國檔案局館長會議上講話指

55、出,要在新的起點上進一步推進檔案信息化,即從過去以技術為主導向以服務為主導轉(zhuǎn)變,從注重應用信息技術向注重檔案內(nèi)容信息化轉(zhuǎn)變,樹立“內(nèi)容為王”的觀念,建設以服務為主導的檔案信息化體系。這些政策性文件及講話,將為大數(shù)據(jù)在檔案館中的應用帶來更多的政策支持,也為大數(shù)據(jù)時代檔案館的發(fā)展帶來更多機遇。</p><p><b>  2.3.4威脅分析</b></p><p><

56、;b>  1、信息安全</b></p><p>  大數(shù)據(jù)時代,數(shù)據(jù)量之大、數(shù)據(jù)種類之多、對數(shù)據(jù)處理速度與時間之快,都對傳統(tǒng)的檔案館安全體系造成極大沖擊。從基礎技術角度而言,當前檔案館廣泛應用的關系型數(shù)據(jù)庫(SQL)技術,經(jīng)過長期實踐與完善,在維護數(shù)據(jù)安全方面已經(jīng)設置了嚴格的訪問控制和隱私管理工具,而大數(shù)據(jù)依托的基礎技術是非關系型數(shù)據(jù)庫(No SQL),其在成熟度和可訪問性方面都不如傳統(tǒng)數(shù)據(jù)庫技

57、術。從核心價值角度而言,大數(shù)據(jù)的關鍵在于信息爆炸時代對數(shù)據(jù)價值的再挖掘。然而,數(shù)據(jù)分析技術的發(fā)展,對國家安全及用戶隱私產(chǎn)生了極大威脅,數(shù)據(jù)持有人可以從歷史數(shù)據(jù)中推測判斷出行為人的下一步動作——個人行動軌跡、行為軌跡,甚至思維軌跡。</p><p><b>  2、用戶流失</b></p><p>  大數(shù)據(jù)時代,檔案館面臨著網(wǎng)絡、圖書館及信息服務公司等的競爭,用戶流失

58、是不爭的事實。以網(wǎng)絡為例,網(wǎng)絡信息資源的豐富使用戶足不出戶就可以獲取所需的信息,用戶對檔案館的穩(wěn)定性與忠誠度下降。據(jù)統(tǒng)計,“超過90%的用戶在查找信息時,會首選搜索引擎,搜索已經(jīng)成為公眾獲取信息的代名詞”。因此,數(shù)字化時代,檔案館如何實現(xiàn)“數(shù)據(jù)化生存”,將是不得不慎重考慮的難題。</p><p>  2.4電子商務大數(shù)據(jù)時代的發(fā)展前景</p><p>  20年后互聯(lián)網(wǎng)發(fā)生的巨大的變化,移

59、動互聯(lián)、社交網(wǎng)絡、電子商務大大拓展了互聯(lián)網(wǎng)的疆界和應用領域。我們在享受便利的同時,也無償貢獻了自己的“行蹤”?,F(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,還知道這只狗喜歡什么食物、幾點出去遛彎,幾點回窩睡覺。我們不得不接受這個現(xiàn)實,每個人在互聯(lián)網(wǎng)進入到大數(shù)據(jù)時代,都將是透明性存在。在物理世界中,許多行為是“人似秋鴻有來信,事如春夢了無痕”。但在互聯(lián)網(wǎng)上卻是“處處行跡處處痕”。任何行為,皆有前兆。要買商品,必先瀏覽,對比,詢價;要搞活動,必先征集、討

60、論、策劃;互聯(lián)網(wǎng)上恰恰保留了大量的前兆性的數(shù)據(jù),通過對這些數(shù)據(jù)的收集和分析,互聯(lián)網(wǎng)企業(yè)具備了預判物理世界中,人類未來行為的能力。收集分析海量的各種類型的數(shù)據(jù),并快速獲取影響未來的信息的能力,這就是大數(shù)據(jù)技術的魅力。事實上大數(shù)據(jù)的來源非常廣泛,天上的衛(wèi)星、地上汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數(shù)據(jù)。這些數(shù)據(jù)如果綜合利用,產(chǎn)生的社會價值和經(jīng)濟價值將是難以估量的。</p><p>  第一篇報告——

61、《大數(shù)據(jù)時代即將到來》,之所以用時代這個詞作為標題,是因為大數(shù)據(jù)是歷史上首個可以預測人類短期行為的技術。未來的不確定性,是人類產(chǎn)生恐懼的根源之一,也是各類組織最為頭痛的問題。大數(shù)據(jù)技術技術讓我們看到解決未來預測問題的一絲曙光。</p><p>  “08年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了。”通常而言

62、,買家在采購商品前,會比較多家供應商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值。統(tǒng)計歷史上所有買家、賣家的詢價和成交的數(shù)據(jù),可以形成詢盤指數(shù)和成交指數(shù)。這兩個指數(shù)是強相關的。詢盤指數(shù)是前兆性的,前期詢盤指數(shù)活躍,就會保證后期一定的成交量。所以當馬云觀察到詢盤指數(shù)異乎尋常的下降,自然就可以推測未來成交量的萎縮。這種統(tǒng)計和分析,如果缺少大數(shù)據(jù)技術的支持,是難以完成的。這次事件,馬云提前呼吁、

63、幫助成千上萬的中小制造商準備過冬糧,從而贏得了崇高的聲譽。</p><p>  推動大數(shù)據(jù)技術在各行業(yè)普及的原動力,來自于企業(yè)改善自身經(jīng)營水平、提升經(jīng)營效率的需要。長期以來,困擾企業(yè)最大的難題就是“如何更加了解他的客戶”。索尼公司的創(chuàng)始人出井伸之解釋索尼衰落的根本原因時,說了一段發(fā)人深省的話:“新一代基于互聯(lián)網(wǎng)DNA企業(yè)的核心能力在于利用新模式和新技術更加貼近消費者、深刻理解需求、高效分析信息并做出預判,所有傳統(tǒng)

64、的產(chǎn)品公司都只能淪為這種新型用戶平臺級公司的附庸,其衰落不是管理能扭轉(zhuǎn)的?;ヂ?lián)網(wǎng)的魅力就是‘the power of low end’”。</p><p>  這句話有兩層含義。第一,傳統(tǒng)企業(yè)衰落的根本原因在于難以貼近消費者,難以了解消費者的真正的需求。第二,互聯(lián)網(wǎng)公司強項恰恰是天然的貼近消費者,了解消費者。傳統(tǒng)企業(yè)必然嫁接互聯(lián)網(wǎng)企業(yè)的DNA,否則必將淪為互聯(lián)網(wǎng)企業(yè)的附庸。</p><p>

65、;  這一輪的變革,事關絕大多數(shù)企業(yè)的命運??梢钥吹?,用大數(shù)據(jù)這個視角,可以察企業(yè)的興衰。第一,對大數(shù)據(jù)不關心,不了解。必步索尼的后塵;第二,擁有大量的數(shù)據(jù),并善加運用的公司,必將贏得未來。時代變了,判斷企業(yè)價值的標準、判斷軟件價值的標準也變了。我們判斷軟件價值的標準是它所協(xié)助管理的數(shù)據(jù)的規(guī)模和活性。我們判斷公司價值的標準是其擁有數(shù)據(jù)的規(guī)模、活性,以及收集、運用數(shù)據(jù)的能力。</p><p>  圍繞數(shù)據(jù)和最終用戶

66、,我們觀察到計算機行業(yè)的發(fā)展有三大趨勢:第一應用軟件一定會泛互聯(lián)網(wǎng)化。第二,行業(yè)會垂直整合。越靠近終端用戶的公司,在產(chǎn)業(yè)鏈上將擁有更大的發(fā)言權。第三,數(shù)據(jù)將成為資產(chǎn)。泛互聯(lián)網(wǎng)化是收集數(shù)據(jù)的重要渠道,沒有泛互聯(lián)網(wǎng)化的應用軟件,公司就難以獲得用戶的行為數(shù)據(jù);行業(yè)垂直整合趨勢在數(shù)據(jù)運用層面,通過搜集大量的用戶數(shù)據(jù),更貼近用戶,更理解用戶,為其提供更適當?shù)姆?;?shù)據(jù)成為資產(chǎn)更強調(diào)數(shù)據(jù)的戰(zhàn)略意義。</p><p>  第3

67、章 電子商務大數(shù)據(jù)時代面對的問題與挑戰(zhàn)</p><p>  大數(shù)據(jù)作為新興產(chǎn)業(yè)熱點,在美國政府“大數(shù)據(jù)”計劃的引導和IBM、甲骨文、EMC等跨國企業(yè)的推動下,成為繼云計算、物聯(lián)網(wǎng)之后信息技術領域的又一亮點。據(jù)開源分析機構Wikibon預計,2012年全球大數(shù)據(jù)企業(yè)營收為50億美元,未來5年的市場復合年增長率將達到58%,到2017年將達到500億美元。IDC則預測大數(shù)據(jù)技術與服務市場將從2010年的32億美元攀升

68、至2015年的169億美元。產(chǎn)業(yè)界對大數(shù)據(jù)的發(fā)展前景充滿信心,然而從全球總體發(fā)展情況來看,大數(shù)據(jù)當前還處于起步階段,理論研究快于產(chǎn)業(yè)發(fā)展,廠商宣傳多于實際應用。加快研發(fā)大數(shù)據(jù)關鍵技術,布局大數(shù)據(jù)產(chǎn)業(yè)鏈,推動大數(shù)據(jù)示范應用,對搶占新一輪信息產(chǎn)業(yè)發(fā)展制高點,具有重要意義。第一次工業(yè)革命,英國和法國成為世界的領導者;第二次工業(yè)革命,奠定了美國的世界霸主地位;時至今日,面對云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新技術、新業(yè)態(tài)、新模式共同支撐的第三次工業(yè)革命,

69、中國面臨歷史性的挑戰(zhàn)與機遇。隨著國內(nèi)外產(chǎn)業(yè)發(fā)展風起云涌,大數(shù)據(jù)時代的浪潮奔騰而至,上海在相關領域積累了哪些先發(fā)優(yōu)勢?在大數(shù)據(jù)應用及產(chǎn)業(yè)化實踐方面有怎樣的發(fā)展思路?上海市經(jīng)濟和信息化委員會主任李耀新所描繪的</p><p>  在大數(shù)據(jù)時代,數(shù)據(jù)逐漸成為企業(yè)最重要的資產(chǎn)之一,決策行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗和直覺。作為構筑在數(shù)據(jù)分析和信息處理基礎上的競爭情報,它的發(fā)展將面臨著全新的信息空間所

70、帶來的機遇和挑戰(zhàn)。</p><p>  3.1 企業(yè)對大數(shù)據(jù)的認知程度</p><p>  大數(shù)據(jù)時代,企業(yè)的生態(tài)環(huán)境發(fā)生了巨大的變化,無處不在的智能終端、隨時在線的網(wǎng)絡傳輸、互動頻繁的社交網(wǎng)絡,使得企業(yè)有機會進行大規(guī)模的精準化的競爭對手、競爭態(tài)勢以及消費者行為研究。作為企業(yè)智囊團的競爭情報,應該主動地擁抱這種變化,構建基于大數(shù)據(jù)的競爭情報體系。然而,據(jù)Coonect的一份調(diào)查報告顯示,4

71、9%的美國數(shù)據(jù)聚合部門高層將大數(shù)據(jù)定義為所有外部和內(nèi)部的網(wǎng)頁數(shù)據(jù)的聚合,16%的人則定義其為由企業(yè)存儲和管理的大量的內(nèi)部數(shù)據(jù);7%的人則認為這是和網(wǎng)絡相關的數(shù)據(jù)和內(nèi)容服務商用來為他們運營服務的數(shù)據(jù)。尤為致命的是,大多數(shù)中小企業(yè)認為大數(shù)據(jù)是Google、Amazon、Facebook、阿里巴巴、京東商城等公司才關心的技術。對大數(shù)據(jù)認識的不足,無疑會使企業(yè)競爭情報工作落后于時代的發(fā)展。如果采取無所作為、固守原狀的鴕鳥政策,那么企業(yè)競爭情報工

72、作將會失去未來的發(fā)展機會,甚至會失去存在的意義。</p><p>  在大數(shù)據(jù)時代下,電子商務的競爭已經(jīng)成為基于數(shù)據(jù)的競爭。數(shù)據(jù)就是電子商務企業(yè)的財富和金礦,誰擁有大數(shù)據(jù),誰就有制勝的砝碼,誰就可能成為大贏家。然而網(wǎng)絡上的消費者并不會直接告訴企業(yè)其需求,電子商務企業(yè)必須去收集、分析、跟蹤、對比消費者在互聯(lián)網(wǎng)上留下的種種“足跡”、評論、圖片、視頻等。當今極速爆炸的信息量遠遠超越了大部分企業(yè)IT架構和基礎設施的承載能

73、力,其實時性要求也大大超越了現(xiàn)有的計算能力。Columbia Business School’s Center on Global Brand Leadership和NYAMA2012年2月份發(fā)布的報告中指出:39%的營銷業(yè)者表示很難收集到可以及時支持個性化營銷的用戶數(shù)據(jù);51%的營銷者認為組織內(nèi)數(shù)據(jù)共享機制缺乏是應用大數(shù)據(jù)的最大障礙。此外,挖掘大數(shù)據(jù)的價值類似沙里淘金,由于大數(shù)據(jù)價值密度低的特性更加增添了數(shù)據(jù)收集工作的巨大性和繁重性。

74、擁有大數(shù)據(jù)是利用大數(shù)據(jù)的前提條件,若不具備整合大數(shù)據(jù)收集和使用的能力,企業(yè)就很難在廣告和多個營銷渠道中提供真正個性化和精確的產(chǎn)品和服務推薦,而擁有大數(shù)據(jù)的企業(yè)則能在競爭中脫穎而出,不戰(zhàn)而勝。對于中小型電子商務企業(yè)來</p><p>  3.2競爭情報系統(tǒng)的數(shù)據(jù)處理能力</p><p>  龐大而復雜的數(shù)據(jù)考驗著競爭情報系統(tǒng)的技術體系和數(shù)據(jù)處理能力。首先在存儲上就是一個非常嚴重的問題。未來競

75、爭情報系統(tǒng)將會面對TB級的數(shù)據(jù)集,而傳統(tǒng)的數(shù)據(jù)庫部署不能處理TB級別的數(shù)據(jù);其次是傳統(tǒng)的數(shù)據(jù)庫技術不能對非結構化數(shù)據(jù)直接進行處理,目前大多數(shù)的非結構化數(shù)據(jù)分析工具也是轉(zhuǎn)換成結構化數(shù)據(jù)之后再進行處理。這一方面降低了情報分析的時效,另一方面也丟失了非結構化數(shù)據(jù)隱含的關系,而這些關系很有可能是非常重要的情報。另外,從原始數(shù)據(jù)到競爭情報的提煉過程,不僅是對IT技術人員的挑戰(zhàn),也是對業(yè)內(nèi)專家的挑戰(zhàn),因為數(shù)據(jù)間的關聯(lián)性已不完全都是技術問題,有些關聯(lián)

76、只有專業(yè)人員才能知道,必須在生態(tài)學、數(shù)學和統(tǒng)計學、社會網(wǎng)絡學、社會行為心理學等方面專業(yè)人員的幫助和解析下,才能建立起合理的數(shù)據(jù)結構。也就是說,未來的信息提煉需要IT技術人員和行業(yè)專家的共同合作。</p><p>  2010 年 12 月,美國的科學技術顧問委員會、信息技術顧問委員會向奧巴馬和國會提交的《規(guī)劃數(shù)字化未來》的專門報告中把數(shù)據(jù)收集和使用的工作提到了戰(zhàn)略的高度。該報告的第一個挑戰(zhàn)就是“數(shù)據(jù)”問題,即:“

77、如何收集、保存、維護、管理、分析、共享正在呈指數(shù)級別增長的數(shù)據(jù)是我們必須面對的一個重要挑戰(zhàn)”。據(jù)統(tǒng)計,82%的公司正受到處理海量信息的挑戰(zhàn),而且他們花很多時間對其進行研究,89%的公司因超負荷處理數(shù)據(jù)而失去銷售機會。僅僅坐擁大數(shù)據(jù)并不夠,對大數(shù)據(jù)的分析和挖掘能力已成為企業(yè)的核心競爭力。因此,建議電子商務企業(yè)著手部署“大數(shù)據(jù)戰(zhàn)略”,引進和培養(yǎng)大數(shù)據(jù)相關人才,創(chuàng)建基于大數(shù)據(jù)的研發(fā)團隊,從技術層面上解決大數(shù)據(jù)的困難和挑戰(zhàn),提高挖掘潛在商業(yè)價值

78、的能力,從而有效地指導企業(yè)制訂精確的行動綱領和采取高效的行動。</p><p>  3.3競爭情報體系組織模式</p><p>  在大數(shù)據(jù)時代,數(shù)據(jù)逐漸成為企業(yè)最重要的資產(chǎn)之一,決策行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗和直覺。這意味著,作為構建在數(shù)據(jù)分析基礎之上的競爭情報系統(tǒng)理應成為企業(yè)產(chǎn)品開發(fā)、運營設置以及商業(yè)模式的基礎和出發(fā)點。然而,目前絕大多數(shù)中小型企業(yè)都沒有專門的

79、競爭情報部門和情報分析專家,即使是在一些大型的企業(yè)中,具有競爭情報職能的部門也常常處于分散、被動、輔助的地位。因此,在大數(shù)據(jù)時代,需要從戰(zhàn)略到戰(zhàn)術層面開始自我的蛻變和進化,對現(xiàn)有競爭情報系統(tǒng)的構架、組織體系、資源配置和權力結構進行重組,讓基于大數(shù)據(jù)管理與分析的競爭情報職能部門處于企業(yè)整體的上游位置,并組織合理的競爭情報系統(tǒng)構架,充分調(diào)用各部門的數(shù)據(jù)資產(chǎn),實現(xiàn)對大數(shù)據(jù)的整體把握,為企業(yè)提供完整、動態(tài)、實時的競爭情報。</p>

80、<p>  大數(shù)據(jù)時代,網(wǎng)絡用戶在互聯(lián)網(wǎng)的評論、圖片、視頻、個人信息、興趣愛好、交易信息、訪問的網(wǎng)站等等均被企業(yè)記錄在案。企業(yè)掌握了大量消費者的行為數(shù)據(jù),對大數(shù)據(jù)進行整合和分析,從而可以發(fā)現(xiàn)新的商機,創(chuàng)造新的價值。然而這些數(shù)據(jù)經(jīng)常包含消費者的真實信息,如在淘寶網(wǎng)上交易時的真實姓名、家庭住址以及銀行賬號等重要的真實信息,逐漸引起了我們對個人隱私的擔憂。正如美國著名的計算機專家迪博德所言,在信息時代,計算機內(nèi)的每一個數(shù)據(jù)、每一個

81、字節(jié),都是構成一個隱私的血肉。信息加總和數(shù)據(jù)整合,對隱私的穿透力不僅僅是“1+1=2”的,很多時候,是大于 2 的。因此,針對隱私保護方面的問題,建議電子商務企業(yè)和國家從以下三方面著手:</p><p>  (1)電子商務企業(yè)應該恪守行業(yè)道德,不能將消費者的個人信息進行交易和泄露。</p><p> ?。?)企業(yè)應該從技術層面上采用先進的隱私保護技術進一步加強用戶的隱私保護,解決由于過度開

82、發(fā)或者深度營銷可能造成的用戶隱私侵犯等等問題。</p><p>  (3)隨著大數(shù)據(jù)應用的發(fā)展,隱私保護的問題和概念在不斷地發(fā)展,因此國家應該制定與之相應的隱私保護的法律和法規(guī),確實保護公民的隱私權。</p><p>  3.4相應的問題解決方案分析</p><p>  大數(shù)據(jù)時代應以智慧創(chuàng)新理念融合大數(shù)據(jù)與云計算,在大數(shù)據(jù)洪流中提升知識價值洞察力,實施高效實時個性

83、化運作,建立有效增值的商業(yè)模式,確保應對A PT 之類的新型安全威脅。電信運營商轉(zhuǎn)型中流量經(jīng)營已成共識,即以智能管道與聚合平臺為基礎,以擴大流量規(guī)模、提升流量層次及豐富流量內(nèi)涵作為基本經(jīng)營方向,并以釋放流量價值為基本目標,可見大數(shù)據(jù)和云計算的深度融合與此流量經(jīng)營目標十分吻合。實際上已經(jīng)有一些運營商借助大數(shù)據(jù)Hadoop云工具管理與分析網(wǎng)絡中的用戶數(shù)據(jù),為日常運維及制定市場戰(zhàn)略等提供有效支撐。</p><p>  

84、針對大數(shù)據(jù)時代的基本特征,加強全方位創(chuàng)新。包括IBM 、EMC 、HP、Microsoft等在內(nèi)的IT 巨頭,紛紛加速收購相關大數(shù)據(jù)公司進行技術整合,尋找數(shù)據(jù)洪流大潮中新的立足點。而涉及人工智能、機器學習等新技術的創(chuàng)新應用,已初顯效益。</p><p>  將大數(shù)據(jù)時代全方位創(chuàng)新工作和智慧城市發(fā)展緊密結合。借助移動互聯(lián)網(wǎng)、大數(shù)據(jù)與云計算的融合、智能運營管道等,建立智能平臺,優(yōu)化配置城市資源,向真正的智慧城市邁進。

85、</p><p>  借助大數(shù)據(jù)創(chuàng)新處理技術應對APT 安全攻擊。APT 安全攻擊的最主要特征為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT 攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續(xù)性。目前,全流量審計方案具備強大的實時檢測能力與事后回溯能力,并可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。</p><p>  第4章 電子商務

86、大數(shù)據(jù)時代的機遇</p><p>  4.1重構精準營銷模式</p><p>  在大數(shù)據(jù)時代到來之前,管理者一般會從哪些平臺提取并使用信息數(shù)據(jù)呢?調(diào)查顯示,大部分數(shù)據(jù)來源于政府數(shù)據(jù)中心和企業(yè)的CRM、BI系統(tǒng),其中囊括了公民基本信息、顧客資料、市場促銷、廣告活動、展覽策劃及官方網(wǎng)站中的各類結構化數(shù)據(jù)。而研究顯示,這些信息只能滿足企業(yè)正常營銷管理需求中15%的量能,并不夠給出一個重要洞察和

87、發(fā)現(xiàn)規(guī)律。而其它85%的數(shù)據(jù)——諸如社交媒體數(shù)據(jù)、郵件數(shù)據(jù)、地理位置、音視頻等不斷增加的信息,數(shù)據(jù)量更大、逐漸廣泛應用、以傳感器為主的物聯(lián)網(wǎng)信息,以及風起云涌的移動3G互聯(lián)網(wǎng)信息等——都屬于大數(shù)據(jù)所覆蓋的非結構性數(shù)據(jù),它們更多地以圖片、視頻等方式呈現(xiàn)。在幾年之前,其可能被束之高閣,價值亦無法被有效挖掘。而如今,大數(shù)據(jù)技術可以進一步提高算法和機器分析性能,也令這些非結構化數(shù)據(jù)得以充分挖掘和運用。對營銷決策數(shù)據(jù)進行更好的優(yōu)化。包括沃爾瑪、家

88、樂福、麥當勞等知名企業(yè)的一些主要門店,均安裝了搜集運營數(shù)據(jù)的裝置,用于跟蹤客戶互動、店內(nèi)客流和預訂情況,研究人員可以對菜單變化、餐廳設計以及顧問意見等如何影響物流和銷售額進行建模。這些企業(yè)可將這些數(shù)據(jù)與交易記錄結合起來,并利用大數(shù)據(jù)工具展開分析,從而</p><p>  例如銷售經(jīng)理、財務經(jīng)理、人事經(jīng)理??它們都帶有”經(jīng)理”二字,但顯然代表了不同的語義,借用語義搜索技術,可以對目標對象實現(xiàn)智能的區(qū)隔判斷。實現(xiàn)點對

89、點智能廣告模式。對于廣告主而言,廣告的核心問題在于:如何從海量數(shù)據(jù)中尋找目標受眾,并投放相應的廣告信息。眾所周知,時下市場上大部分廣告并非”點對點”模式,而是”主從”模式。就像單個”老師”(產(chǎn)品)在面對眾多滿地跑的”學生”(消費者等受眾),可想而知即便”老師”再努力,也無法抓住大部分”學生”,相當一部分廣告費被白白扔掉。然而隨著大數(shù)據(jù)的發(fā)展,產(chǎn)業(yè)界樂觀地預期:這些錢或許將被一一撿回來。大數(shù)據(jù)能通過互聯(lián)網(wǎng)點擊流跟蹤個體用戶的行為,更新其偏

90、愛,并實時模仿其可能的行為,讓點對點的RTB(實時競價廣告)成為可能。在美國,通過大數(shù)據(jù)的幫助,RTB(實時競價廣告)能把炙手可熱的目標用戶拍賣給廣告商。試想一下:在傳統(tǒng)電梯情景中,進入一個謝頂?shù)闹心耆耍娞菀曨l中放映了洗發(fā)水廣告,那廣告費無疑打了水漂。而如今有了RTB,廣告需要盯住的不是滿地跑的”學生”,而是那個喜歡看廣告的目標客戶;廣告市場上賣的也不是傳統(tǒng)意義上的廣告位,而是訪問這個廣告位的具體用戶。在大數(shù)</p>

91、<p>  4.2大數(shù)據(jù)時代電商IT基礎設施的變革</p><p>  后互聯(lián)網(wǎng)時代,PC服務器成為電商企業(yè)最廣泛使用的IT基礎設施,隨著業(yè)務量的發(fā)展,電商企業(yè)大量使用了PC服務器集群技術和小型機技術,用于滿足日益增長的在線業(yè)務交易量。同時,企業(yè)必須投入大量人/財/物等資源對IT基礎設施進行常規(guī)性的維護、升級、擴容、更新。</p><p>  1、電子商務中數(shù)據(jù)倉庫系統(tǒng)的發(fā)展&l

92、t;/p><p>  當前,電子商務的數(shù)據(jù)大規(guī)模存在且持續(xù)增長,表現(xiàn)大數(shù)據(jù)技術與應用為大規(guī)模、分布式、異構性,使得電商數(shù)據(jù)倉庫系統(tǒng)發(fā)生了顯著變化:數(shù)據(jù)量由TB級升至PB級,并仍在持續(xù)爆炸式增長。有關調(diào)查顯示,2015年最大數(shù)據(jù)倉庫中的數(shù)據(jù)量將逼近100PB,其增長速度遠超摩爾定律;分析需求由常規(guī)分析轉(zhuǎn)向深度分析;硬件平臺由高端服務器轉(zhuǎn)向由中低端硬件構成的大規(guī)模集群平臺,并行數(shù)據(jù)庫的規(guī)模增大,成本急劇上升。電商數(shù)據(jù)分析

93、的兩大趨勢和挑戰(zhàn)是:數(shù)據(jù)量的膨脹;數(shù)據(jù)深度分析需求的增長。目前僅具備傳統(tǒng)數(shù)據(jù)處理技術和信息分析能力的數(shù)據(jù)倉庫和BI工具難以完成PB級大數(shù)據(jù)的數(shù)據(jù)管理和分析工作。</p><p>  2、大數(shù)據(jù)的IT基礎云計算架構</p><p>  云計算是新型分布式網(wǎng)絡計算架構,特別適合向各種網(wǎng)絡應用提供計算、存儲、網(wǎng)絡、軟件等在線服務,NIST認為這種架構具有5個關鍵功能、3種服務模式和4種部署式。云

94、計算的特征主要有:按需自助服務(on-demand self-service)、泛在網(wǎng)絡訪問(broad net work access)、虛擬池化的資源(resource pooling)、快速可伸縮性(rapidel asticity)、可度量的服務(measure dservice),這些能力對當前電商的基礎IT設施來說,都是必須要滿足的要求。</p><p>  4.3大數(shù)據(jù)處理模式</p>

95、<p>  大數(shù)據(jù)處理模式從傳統(tǒng)的數(shù)據(jù)庫集群演進到云計算Map Reduce大規(guī)模并行處理架構,實現(xiàn)任務的分解處理和結果合并,從而實現(xiàn)對可處理數(shù)據(jù)規(guī)模的無限擴展,大數(shù)據(jù)處理技術已被認為是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術變革。</p><p><b>  1、數(shù)據(jù)庫集群模式</b></p><p>  集群是指通過協(xié)同工作方式運行同一套應用程序

96、,針對客戶端及應用程序提供單一系統(tǒng)映像,使用特定的連接方式,將硬件設備結合起來,構成的松散耦合的計算節(jié)點集合,具備以下優(yōu)勢:性能提升、擴展性提升、可靠性提升。數(shù)據(jù)庫集群是將集群技術引入數(shù)據(jù)庫。數(shù)據(jù)庫集群在技術上具備一定的局限性,具體介紹如下:</p><p>  采用PC服務器作為功能節(jié)點,系統(tǒng)線纜眾多,硬件復雜度過高,實施架設難度較大,可擴展性受限;高速互聯(lián)設備必須通過主機的PCI插槽與主機相連,而PCI的傳輸

97、速率無法滿足并行數(shù)據(jù)庫集群節(jié)點間的數(shù)據(jù)通信要求;數(shù)據(jù)庫安全性和數(shù)據(jù)集可擴展性提升空間極小,全面提升速度、數(shù)據(jù)同步、安全保證、可擴展性4個技術指標是一大難題;隨著設備量的增加和應用的復雜化,需要迅速追加投入以解決所引起的兼容性和可靠性等各類問題;并行數(shù)據(jù)庫主要采用shared-nothing結構,在擴展性、容錯性、成本、對異構環(huán)境的支持能力等方面有所欠缺并相互影響,因此擴展性非常有限,目前尚未有數(shù)千節(jié)點規(guī)模的應用案例。</p>

98、<p>  2、Map Reduce框架</p><p>  云計算架構由大規(guī)模低端服務器組成服務器集群,提供海量存儲空間和大規(guī)模數(shù)據(jù)的處理能力,具備可靠性、擴展性以及高可用性,因此中國科學院計算所、中國移動、百度和淘寶、網(wǎng)易等電子商務平臺都使用主流云計算平臺Hadoop架構進行Web搜索、大數(shù)據(jù)分析等。Map Reduce框架包括:分布式文件系統(tǒng)(HDFS)、并行編程模型Map Reduce、并行

99、執(zhí)行引擎。從HDFS角度來看,Hadoop的節(jié)點由存儲并提供定位塊服務的數(shù)據(jù)節(jié)點(data node)和管理分布式文件系統(tǒng)命名空間的命名節(jié)點(name node)組成,HDFS主從結構的體系架構設計大大簡化了分布式系統(tǒng)架構。其文件系統(tǒng)的設計特點是:元數(shù)據(jù)集中管理、數(shù)據(jù)塊(64MB)分散存儲以保證數(shù)據(jù)的安全性,數(shù)據(jù)復制(每份數(shù)據(jù)至少3個備份)實現(xiàn)高度容錯。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)實時響應能力較高,但對于TB級或PB級別的大數(shù)據(jù)集,數(shù)據(jù)挖掘的檢索速

100、度則急劇下降,但引入HDFS與RDBMS相結合的機制可以充分利用兩者的優(yōu)勢,實現(xiàn)高效率的數(shù)據(jù)挖掘與決策支持。Map Reduce由Google設計,用于對集群上的大數(shù)據(jù)集進行并行計算處理,是非關系型數(shù)據(jù)管理和分析技術的典</p><p>  圖2 Map Reduce并行計算流程</p><p>  基于Map Reduce計算模型編寫分布式并行程序的主要編碼工作就是實現(xiàn)map和reduc

101、e函數(shù),其他的分布式存儲、工作調(diào)度、負載平衡、容錯處理、網(wǎng)絡通信等復雜問題均由Map Reduce框架負責處理。Map Reduce原理簡單、技術簡潔、數(shù)據(jù)處理效率高,在系統(tǒng)層面解決了數(shù)據(jù)庫集群難以解決的擴展性、容錯性等問題,Map Reduce免費開源,基于異構廉價服務器搭建可彈性伸縮的大規(guī)模集群,并行、分布式地處理和分析大規(guī)模數(shù)據(jù),其構建成本遠低于數(shù)據(jù)庫集群所采用的并行數(shù)據(jù)庫。幾種大數(shù)據(jù)處理模式的比較分析見表1,可見,Map Red

102、uce大數(shù)據(jù)處理模式具有相對顯著的優(yōu)勢。</p><p>  表1 大規(guī)模數(shù)據(jù)處理模式的比較分析</p><p>  4.4信息檢索服務的強大性</p><p>  在IT基礎設施上,淘寶率先引入云計算技術,阿里云成為我國第一家專門從事云計算服務的公司,淘寶的所有交易系統(tǒng)都為自建,通過電商平臺集成海量數(shù)據(jù),以下主要以淘寶為例,分析引入Map Reduce大數(shù)據(jù)處理模

103、式給電商業(yè)務帶來的革命性影響。</p><p>  商品的豐富性直接影響電商的競爭力,而海量的商品數(shù)目、繁雜的分類體系以及復雜的非結構化的商品屬性數(shù)據(jù)等都需要IT基礎設施具備足夠的靈活性和強大的檢索能力。云平臺架構提供的超大規(guī)模計算能力和大數(shù)據(jù)處理能力能夠提供強大的個性化信息檢索功能,即根據(jù)用戶的個體差異、個人興趣和需求特征進行智能海量檢索,并高效率返回高查全率和查準率檢索結果。另外,還能實現(xiàn)信息推送服務、熱點信

104、息推送、信息推薦等新型信息檢索服務。云計算的技術優(yōu)勢使得信息檢索和服務可以很好地解決長期存在的人類自然語言理解、知識推理等問題,充分發(fā)揮深度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的功能,以迅速準確地分析處理用戶信息行為、理解用戶自然語言表達并進行相應智能檢索,得出符合用戶需求的信息和產(chǎn)品,提高用戶服務的速度和精準度,最大限度地提升客戶滿意度。淘寶商品具備數(shù)十種屬性,還包括視頻、圖像等多媒體數(shù)據(jù),淘寶用戶可以通過顏色、價格、品牌等幾十種屬性在海量數(shù)據(jù)中進行智

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論