2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、招投標項目信息大數(shù)據(jù)平臺,建設(shè)方案,2018,年,1,月,目,CONTENTS,錄,背景介紹,PART ONE,PART TWO,平臺功能,PART THREE,技術(shù)方案,PART FOUR,工期計劃,System introduce,背景介紹,建設(shè)背景,1.1,、,市場,規(guī)模,行業(yè),產(chǎn)品,各省,人,市場拓展是,2018,年公司的重要工作內(nèi)容,公司的產(chǎn)品與各級政府的投資密切相,關(guān),我們需要根據(jù)市場規(guī)模情況,規(guī)劃公司相關(guān)人力等資源的支持和

2、保障。,公司發(fā)展方向以產(chǎn)品銷售、集成開發(fā)服務(wù)、運維服務(wù)為主的三個業(yè)務(wù)線條,行業(yè),專家和主打產(chǎn)品是我們的核心競爭力,需集中優(yōu)勢資源做大做強。,各省市場拓展人員,需要與各省的各級政府達成協(xié)作,謀取更多項目收入,合作,的領(lǐng)域和資源的分配需協(xié)調(diào)。,制度,聯(lián)動,公司發(fā)展方向和行業(yè)、產(chǎn)品方向,專業(yè)人才的培養(yǎng),各省的協(xié)作等都,需要公司進行資源分配等決策,需要,市場、政策、行業(yè)數(shù)據(jù)的支持!,1.2,、,現(xiàn)狀分析,缺乏區(qū)域行業(yè)產(chǎn)品市場總體規(guī)模估算,?,對

3、投入多少市場人力技術(shù)等資源無法進行有效評估;,缺乏區(qū)域行業(yè)產(chǎn)品市場行業(yè)占比分析,?,對公司主要產(chǎn)品和服務(wù)發(fā)展拓展方向和領(lǐng)域不能提供支持;,缺乏區(qū)域行業(yè)產(chǎn)品市場競爭對手的分析,?,對同行業(yè)的競爭對手公開市場行為無統(tǒng)一的分析;,區(qū)域行業(yè)產(chǎn)品市場招投標項目信息及時獲取困難,?,對關(guān)注領(lǐng)域的招標信息不能主動獲得,人為因素多;,各省行業(yè)產(chǎn)品市場數(shù)據(jù)引領(lǐng)自身業(yè)務(wù),?,沒有自己的數(shù)據(jù)支持隊伍,找外邊的咨詢又太貴;,解決思路,1.3,、,需及時獲取各省

4、、市,ICT,公開市場項目、政策、行業(yè)等信息,進行統(tǒng)計分析,用數(shù)據(jù)分,政府公告,行業(yè)動態(tài),招標信息,析結(jié)果進行有效的支撐。,?,及時獲取各級政府發(fā)文、公告等信息,了解區(qū)域最新政策動態(tài),抓住政府時事,熱點,有效把握工作重點,提供更好的服務(wù)支持。,?,及時獲取各大網(wǎng)站科技頻道行業(yè)領(lǐng)域熱點新聞,科技新聞等動態(tài),掌握行業(yè)最,新的動態(tài),調(diào)整行業(yè)重點及產(chǎn)品發(fā)展方向,跟隨技術(shù)進步。,?,及時獲取區(qū)域,解競爭對手的優(yōu)勢和劣勢,及時把握最新招標公告,避免

5、商機丟失。,ICT,招投標、中標等信息,獲得區(qū)域投資總量,獲取中標情況,了,建設(shè)目標和內(nèi)容,1.4,、,通過軟件系統(tǒng),及時獲取區(qū)域產(chǎn)品和服務(wù)公開市場招投標項目信息,進行分類匯總分析,輔助,數(shù)據(jù)爬蟲服務(wù),爬取指定區(qū)域的政,府招投標網(wǎng)站上公,開的招標和中標信,息。,公司發(fā)展方向、行業(yè)、產(chǎn)品等方面的決策。,審計分類工具,數(shù)據(jù)展示門戶,分析報告模板,管理后臺,對爬取的項目信息,將審計過的可用的,根據(jù)市場業(yè)務(wù)的需,初期對企業(yè)內(nèi)部服,進行分類和審計

6、,,項目招投標數(shù)據(jù)進,求,可以定制分析,務(wù),后期公眾號等,按行業(yè)分類,查重,,行匯總分析,多種,的模板,自動輸出,,提供云服務(wù),為其,合規(guī)校驗入庫。,方式展示。,數(shù)據(jù)說話。,他企業(yè)提供咨詢。,Platform function,平臺功能,總體功能結(jié)構(gòu),2.1,、,平臺總體由六部分組成,包括數(shù)據(jù)爬蟲服務(wù),數(shù)據(jù)存儲子系統(tǒng)、數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)展示子系統(tǒng),后臺管理,子系統(tǒng),微信公眾號子系統(tǒng)。,數(shù)據(jù)采集,數(shù)據(jù)校驗存儲,數(shù)據(jù)分析預(yù)警,數(shù)據(jù)展示,企業(yè)

7、云服務(wù),數(shù)據(jù)展示門戶平臺,公眾號服務(wù)平臺,基于,mysql,的關(guān)系型數(shù)據(jù)中心,安,全,信,體,系,招標項,目信息,中標項,目信息,行業(yè)分,類信息,國家及,各地政,行業(yè)最,平臺用,其他信,息,審,府政策,新動態(tài),信息,信息,戶信息,用戶定,制消息,推送信,息,......,核,息,規(guī),則,制,定,基于,mogoDB,的大數(shù)據(jù)存儲,數(shù)據(jù)爬蟲服務(wù),數(shù)據(jù)爬蟲服務(wù),2.2,、,數(shù)據(jù)爬蟲服務(wù)從政府采購網(wǎng)站、政府電子政務(wù)網(wǎng)站、主流媒體網(wǎng)站抓取相關(guān)信息

8、,經(jīng)過初步分類,存儲到大,數(shù)據(jù)平臺。,數(shù)據(jù)爬蟲服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,9,功能描述,主動觸發(fā),根據(jù)定制目標信息網(wǎng)站列表,定時主動檢測是否有新信息發(fā)布,分析目標網(wǎng)站,url,,獲取要抓取的項目信息或政策等信息的,url,清單,將,url,存儲到消息隊列中,可采用,kafaka,或,activeMQ,等,爬蟲服務(wù)從消息隊列中獲得,url,,根據(jù)不同網(wǎng)站適配器,進行數(shù)據(jù)的爬取,進行信息的檢查審核,關(guān)鍵信息是否缺失,

9、對缺失的信息進行標記,進行數(shù)據(jù)的簡單分類,主要是三類項目、政策和行業(yè),大部分的數(shù)據(jù)記錄通過檢查,未通過檢查的記錄存入指定錯誤明細表,通過,hive sql,寫入,hbase,中,同時寫入分析服務(wù)消息隊列中一份,10,記錄日志,數(shù)據(jù)分析服務(wù),2.3,、,數(shù)據(jù)分析服務(wù)將初步分類的信息,根據(jù)定制的模版和行業(yè),進行大數(shù)據(jù)處理,寫入關(guān)系型數(shù)據(jù)庫中,便于進,行數(shù)據(jù)的展示和結(jié)果的獲取。,數(shù)據(jù)分析服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,功能

10、描述,主動觸發(fā),根據(jù)消息隊列中定制消息變化,進行網(wǎng)頁的分析處理,根據(jù)定制模版分析目標網(wǎng)頁中關(guān)鍵的數(shù)據(jù)項,如項目名稱,中標金額,中標廠商等,對分析出的關(guān)鍵信息進行合規(guī)檢查,對合法信息,記錄到,mysql,中,對缺失的信息進行標記,改進適配器類型和定制模版,進行數(shù)據(jù)的行業(yè)分類,標記信息的行業(yè)屬性,可能有多個,通過大數(shù)據(jù),storm,平臺進行處理,記錄日志,未通過檢查的記錄存入指定錯誤明細表,數(shù)據(jù)展示服務(wù),2.4,、,數(shù)據(jù)展示服務(wù)將關(guān)系型數(shù)據(jù)

11、庫中可使用數(shù)據(jù),通過自動化報表工具進行展示,可根據(jù)業(yè)務(wù)需求,進行行業(yè)分,類展示和匯總。,數(shù)據(jù)展示服務(wù)功能說明,編號,1,2,3,4,5,6,7,8,功能描述,用戶的管理,包括用戶的增加,刪除,修改,權(quán)限,登錄等,自動化報表工具,定制的主題報表,按行業(yè)等進行匯總分析,也可按區(qū)域進行,根據(jù)要求,對某廠商的分析,針對某具體廠商的單獨分析,同行業(yè)多廠商的對比分析,比較廠商的市場份額等,某區(qū)域總的政府投資總額分析,行業(yè)占比分析等,數(shù)據(jù)的推送服務(wù),

12、根據(jù)某用戶的定制申請,可進行主動推送某行業(yè)消息,記錄日志,數(shù)據(jù)適配器模型,2.5,、,數(shù)據(jù)適配器模型是根據(jù)目標網(wǎng)站的,url,,適配該網(wǎng)站招投標信息、政策信息等功能區(qū)域的方法,通常需要根,據(jù)該網(wǎng)站的升級,不斷進行更改。,數(shù)據(jù)適配器功能說明,編號,1,2,3,4,5,6,7,8,功能描述,網(wǎng)站清單的維護,行業(yè)分類的維護,適配器的定制,加載,變更,維護,關(guān)鍵數(shù)據(jù)項的維護,網(wǎng)頁適配器的維護,對某具體網(wǎng)頁關(guān)鍵信息抓取的適配器定制,加載,變更等,

13、適配器的測試工具,定期測試適配器是否正常工作,如檢測失敗,可進行主動推送預(yù)警消息,記錄日志,Technical scheme,技術(shù)方案,3.1,、,技術(shù)方案,-,架構(gòu)圖,數(shù)據(jù)展示,web,BootStrap,Ajax,數(shù)據(jù)展示,H5,BootStrap,Ajax,Android,客戶端,Ionic,Sqlite,AnglauerJs,Volley,微信小程序、公眾號,js,微信,api,接口總線,/,數(shù)據(jù)服務(wù),Web,接口,RESTfu

14、l,OAuth,H5,接口,SpringMVC,JPA,客戶端,接口,Solr,Memcached,Redis,數(shù)據(jù)分析服務(wù),任務(wù)管理,配置管理,kafaka,報表管理,行業(yè)管理,Mysql,activeMQ,MongoDB,數(shù)據(jù)庫,數(shù)據(jù)爬蟲服務(wù),kafaka,model,httpclient,…..,3.2,、,技術(shù)方案,-,網(wǎng)絡(luò)拓撲,網(wǎng)絡(luò)帶寬考慮,20M,獨享,初步滿足各省招投標項目的數(shù)據(jù)使用,,30,個網(wǎng)站,每天約,10000,個

15、左右招標,及中標項目數(shù)據(jù)。,3.3,、,服務(wù)器,全部采用,x86,開放架構(gòu),單服務(wù)器配置建議如下所示。,服務(wù)器類型,服務(wù)器功能,mogoDB,服務(wù)器,數(shù)據(jù)存儲平臺,(,mogoDB,及,mysql,集群),mysql,服務(wù)器,數(shù)據(jù)爬蟲服務(wù)器,數(shù)據(jù)爬取及分析,平臺,數(shù)據(jù)分析審計服務(wù)器,數(shù)據(jù)展示,服務(wù)器,數(shù)據(jù)展示平臺,(包括接口),數(shù)據(jù)接口,服務(wù)器,數(shù)量,10,3,3,3,3,3,CPU,32,32,12,12,32,32,內(nèi)存,128G,

16、128G,24G,24G,128G,128G,網(wǎng)口,2*1Gb,2*1Gb,2*1Gb,2*1Gb,2*1Gb,2*1Gb,操作系統(tǒng),Centos 6.3,Centos 6.3,Centos 6.3,Centos 6.3,Centos 6.3,Centos 6.3,內(nèi)置盤,1*2TB 7200,RPM,SATA disks,4*600GB 15K SAS,disks RAID 0+1,1TB 7200,RPM,SATA disks,4*

17、600GB 15K SAS,disks RAID 0+1,2*2TB 7200,RPM,SATA disks,4*600GB 15K SAS,disks RAID 0+1,3.4,、,關(guān)鍵技術(shù),-storm,Apache Storm,是一個分布式實時大數(shù)據(jù)處理系統(tǒng)。,Storm,設(shè)計用于在容錯和水平可擴展方法中處理大量數(shù),據(jù)。,Storm,是,Twitter,開源的分布式實時大數(shù)據(jù)處理框架,被業(yè)界稱為實時版,Hadoop,,隨著大數(shù)據(jù)實

18、時處理,解決方案(流計算)的應(yīng)用日趨廣泛,目前已是分布式技術(shù)領(lǐng)域最新爆發(fā)點,而,Storm,更是流計算技術(shù)中的,佼佼者和主流。,Storm,框架主要由,7,部分組成。,Topology,:一個實時應(yīng)用的計算任務(wù)被打包作為,Topology,發(fā)布,這同,Hadoop,的,MapReduce,任務(wù)相似。,Spout,:,Storm,中的消息源,用于為,Topology,生產(chǎn)消息,(數(shù)據(jù)),一般是從外部數(shù)據(jù)源(如,Message Queue,

19、、,RDBMS,、,NoSQL,、,Realtime Log,)不間斷地讀取數(shù)據(jù),并發(fā)送給,Topology,消息(,tuple,元組)。,Bolt,:,Storm,中的消息處理者,用于為,Topology,進行消,息的處理,,Bolt,可以執(zhí)行過濾,聚合,,查詢數(shù)據(jù)庫等操,作,而且可以一級一級的進行處理。,Stream,:產(chǎn)生的數(shù)據(jù)(,tuple,元組)。,Stream grouping,:在,Bolt,任務(wù)中定義的,Stream,進

20、行區(qū),分。,Task,:每個,Spout,或者,Bolt,在集群執(zhí)行許多任務(wù)。,Worker,:,Topology,跨一個或多個,Worker,節(jié)點的進程執(zhí),行。,3.5,、,關(guān)鍵技術(shù),-mogoDB,MongoDB,是一個新的和普遍使用的數(shù)據(jù)庫,它是一個基于文檔的非關(guān)系數(shù)據(jù)庫提供程序。,雖然它比傳統(tǒng)的數(shù)據(jù)庫快,100,倍,但早期說它將廣泛地取代傳統(tǒng)的,RDBMS,。,但是,不可否認的是:在性能,和可擴展性方面,MongoDB,有著明顯

21、的優(yōu)勢。,關(guān)系數(shù)據(jù)庫具有典型的架構(gòu)設(shè)計,可以顯示表的數(shù)量以及這些表之間的關(guān)系,而在,MongoDB,中則沒有關(guān)系,的概念。,MongoDB,優(yōu)點,MongoDB,的架構(gòu)較少。它是一個文檔數(shù)據(jù)庫,它的一個集合持有不同的文檔。,從一個到另一個的文檔的數(shù)量,內(nèi)容和大小可能有差異。,MongoDB,中單個對象的結(jié)構(gòu)很清淅。,MongoDB,中沒有復(fù)雜的連接。,MongoDB,提供深度查詢的功能,因為它支持對文檔的強大的動態(tài)查詢。,MongoDB

22、,很容易擴展。它使用內(nèi)部存儲器來存儲工作集,這是其快速訪問的原因。,使用方便,重量輕,/,輕量級,比,RDBMS,快得多,應(yīng)該使用,MongoDB,在哪些場景,大而復(fù)雜的數(shù)據(jù),移動和社會基礎(chǔ)設(shè)施數(shù)據(jù),內(nèi)容管理和交付,用戶數(shù)據(jù)管理,數(shù)據(jù)中心。,3.5,、,關(guān)鍵技術(shù),-kafaka,Kafka,是一個分布式的、可分區(qū)的、可復(fù)制的消息系統(tǒng)。它提供了普通消息系統(tǒng)的功能,但具有自己獨特的,設(shè)計。,Kafka,將消息以,topic,為單位進行歸納。

23、,將向,Kafka topic,發(fā)布消息的程序稱為,producers,,將預(yù)訂,topics,并消費消息的程,序稱為,consumer,。,Kafka,以集群的方式運行,可以由一個或多個服務(wù)組成,每,個服務(wù)叫做一個,broker.producers,通過網(wǎng)絡(luò)將消息發(fā)送到,Kafka,集群,集群向消,費者提供消息,如右圖所示。,Kafka,提供的一個抽象概念,:topic,。,一個,topic,是對一組消息的歸納。對每個,topic,,

24、,Kafka,對它的日志進,行了分區(qū),如左圖所示。,每個分區(qū)都由一系列有序的、不可變的消息組成,這些消息被連續(xù),的追加到分區(qū)中。分區(qū)中的每個消息都有一個連續(xù)的序列號叫做,offset,,用來在分區(qū)中唯一的標識這個消息。,在一個可配置的時間段內(nèi),,Kafka,集群保留所有發(fā)布的消息,不管這,些消息有沒有被消費。,Kafka,的性能是和數(shù)據(jù)量無關(guān)的常量級的,所,以保留太多的數(shù)據(jù)并不是問題。,project plan,工期計劃,4.1,、,項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論