基于Spark的情報(bào)大數(shù)據(jù)可視化分析.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息化時(shí)代數(shù)據(jù)量激增,同時(shí)由于情報(bào)部門等特殊需求部門多年來對(duì)信息的積累,存儲(chǔ)了大量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),由于受技術(shù)水平、創(chuàng)新意識(shí)、支撐保障等諸多因素影響,出現(xiàn)不同程度的信息壁壘,信息共享度、利用率不高,如何利用這些情報(bào)數(shù)據(jù)掌握社會(huì)動(dòng)向、分析事態(tài)的演化趨勢(shì),進(jìn)而提前預(yù)警預(yù)測(cè),并為決策者提出決策性的建議,尚有大量知識(shí)需要研究。
  大數(shù)據(jù)技術(shù)經(jīng)過多年的發(fā)展和完善已經(jīng)趨于成熟,使用大數(shù)據(jù)技術(shù)進(jìn)行情報(bào)分析,可有效的利用數(shù)據(jù),為決策者提供可

2、靠的指引。通過對(duì)信息的采集、整合并輔以大數(shù)據(jù)技術(shù),大力推進(jìn)相關(guān)部門的信息化建設(shè)。利用Spark運(yùn)行在內(nèi)存中的特點(diǎn),為使用者提供高效的、交互式的查詢和計(jì)算,快速展現(xiàn)數(shù)據(jù)內(nèi)在信息,提高情報(bào)機(jī)關(guān)工作效率。本系統(tǒng)以Spark、Hadoop大數(shù)據(jù)技術(shù)為基礎(chǔ),面向特殊應(yīng)用信息庫、各情報(bào)資源信息庫等已有數(shù)據(jù)庫或其他多種類型數(shù)據(jù)文件,輔以GraphX圖計(jì)算框架、Spark RDD、SparkSQL等工具,進(jìn)行快速、高效的信息查詢和多種圖形化展示,并為使

3、用者提供對(duì)社區(qū)人群的分析、通話分析、人員關(guān)聯(lián)查詢等多種功能。
  本文主要工作內(nèi)容如下:
  1、研究情報(bào)系統(tǒng)業(yè)務(wù)模型,以及情報(bào)、特殊部門的具體需求分析,研究Spark、Hadoop大數(shù)據(jù)分析與存儲(chǔ)技術(shù)、基于J2EE的前端系統(tǒng)、分布式消息系統(tǒng)以及數(shù)據(jù)清洗和數(shù)據(jù)庫使用等,并設(shè)計(jì)了情報(bào)大數(shù)據(jù)分析系統(tǒng)的一種實(shí)現(xiàn)方法。
  2、開發(fā)前端系統(tǒng)使用J2EE技術(shù)架構(gòu),搭載Spring、SpringMVC、Mybatis三大框架作為前

4、端展示系統(tǒng)。其中視圖層采用FreeMarker、JQuery EasyUI、ECharts等組件提供多種形式、直觀的數(shù)據(jù)展示。使用Oracle數(shù)據(jù)庫,為面端組件、用戶名、密碼等信息提供持久化服務(wù)。
  3、分布式計(jì)算和傳輸系統(tǒng)開發(fā)。前端展示系統(tǒng)通過Apache Kafka集群與Spark集群進(jìn)行實(shí)時(shí)交互。Spark集群主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行計(jì)算、分析。通過使用SparkRDD、Spark SQL、GrpahX、GraphFrame等工

5、具進(jìn)行社區(qū)發(fā)現(xiàn)、重點(diǎn)人員查找、話單分析、人群分析等功能,并將結(jié)果通過Kafka集群實(shí)時(shí)的反饋給前端展示系統(tǒng)。
  4、數(shù)據(jù)清洗和導(dǎo)入工作。數(shù)據(jù)存儲(chǔ)采用分布式系統(tǒng)存儲(chǔ),并支持多種數(shù)據(jù)來源的導(dǎo)入,如關(guān)系型數(shù)據(jù)庫、文本文檔、CSV文件等。經(jīng)過數(shù)據(jù)清洗后統(tǒng)一存放在HDFS系統(tǒng)中。通過Sqoop實(shí)現(xiàn)對(duì)存儲(chǔ)系統(tǒng)定時(shí)更新的功能,在固定時(shí)間間隔將外部數(shù)據(jù)導(dǎo)入到存儲(chǔ)系統(tǒng)中,保證數(shù)據(jù)的實(shí)時(shí)有效性。
  大數(shù)據(jù)分析系統(tǒng)通過將分散在不同業(yè)務(wù)部門的信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論