版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、最新大廠數(shù)據(jù)湖面試題及知識(shí)點(diǎn)總結(jié)什么是數(shù)據(jù)湖?數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲(chǔ)、處理、分析的基礎(chǔ)設(shè)施;以數(shù)據(jù)為導(dǎo)向,實(shí)現(xiàn)任意來(lái)源、任意速度、任意規(guī) 模、任意類型數(shù)據(jù)的全量獲取、全量存儲(chǔ)、多模式處理與全生命周期管理;并通過(guò)與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各 類企業(yè)級(jí)應(yīng)用。用架構(gòu)圖能很快說(shuō)明白,用阿里的數(shù)據(jù)架構(gòu)圖來(lái)說(shuō):CDM ( Common Dimenions Model個(gè)性化分析與取故ODS (operational da
2、ta store, staging area)存儲(chǔ)來(lái)自各業(yè)務(wù)系統(tǒng)(生產(chǎn)系統(tǒng))的原始數(shù)據(jù),即為數(shù)據(jù)湖。CDM為經(jīng)過(guò)整合、清洗的數(shù)據(jù)。其中的DWS匯總層,為面向主題的數(shù)據(jù)倉(cāng)庫(kù)(狹義),用于BI報(bào)表出數(shù)。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)湖的定義就是原始數(shù)據(jù)保存區(qū).雖然這個(gè)概念國(guó)內(nèi)談的少,但絕大部分互聯(lián)網(wǎng)公司都已經(jīng)有了。國(guó)內(nèi)一般把整個(gè) HDFS叫做數(shù)倉(cāng)(廣義),即存放所有數(shù)據(jù)的地方。02數(shù)據(jù)湖的 數(shù)據(jù)湖的發(fā)展數(shù)據(jù)湖最早是2011年由Pentaho的首席技術(shù)官J
3、ames Dixon提出的一個(gè)概念,他認(rèn)為諸如數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)由于其有序性 的特點(diǎn),勢(shì)必會(huì)帶來(lái)數(shù)據(jù)孤島效應(yīng),而數(shù)據(jù)湖可以由于其開(kāi)放性的特點(diǎn)可以解決數(shù)據(jù)孤島問(wèn)題。為什么不是數(shù)據(jù)河?因?yàn)?,?shù) 據(jù)要能存,而不是一江春水向東流。為什么不是數(shù)據(jù)池?因?yàn)?,要足夠大,大?shù)據(jù)太大,一池存不下。為什么不是數(shù)據(jù)海?因 為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無(wú)邊天作岸”,那可不行。所以數(shù)據(jù)要能“存”,數(shù)據(jù)要 夠“存”,數(shù)據(jù)要有
4、邊界地“存”。企業(yè)級(jí)的數(shù)據(jù)是需要長(zhǎng)期積淀的,因此是“數(shù)據(jù)湖”。同時(shí)湖水天然會(huì)進(jìn)行分層,滿足不同的生態(tài) 系統(tǒng)要求,這與企業(yè)建設(shè)統(tǒng)一數(shù)據(jù)中心,存放管理數(shù)據(jù)的需求是一致的。熱數(shù)據(jù)在上層方便流通應(yīng)用,溫?cái)?shù)據(jù)、冷數(shù)據(jù)位于數(shù) 據(jù)中心的不同存儲(chǔ)介質(zhì)之中,達(dá)到數(shù)據(jù)存儲(chǔ)容量與成本的平衡。但隨著數(shù)據(jù)湖在各類企業(yè)的應(yīng)用,大家都覺(jué)得:嗯,這個(gè)數(shù)據(jù) 有用,我要放進(jìn)去;那個(gè)數(shù)據(jù)也有用,我也要放進(jìn)去;于是把所有的數(shù)據(jù)不假思索地扔進(jìn)基于數(shù)據(jù)湖的相關(guān)技術(shù)或工具中,沒(méi) 有
5、規(guī)則不成方圓,當(dāng)我們認(rèn)為所有數(shù)據(jù)都有用時(shí),那么所有的數(shù)據(jù)都是垃圾,數(shù)據(jù)湖也變成了造成企業(yè)成本高企的數(shù)據(jù)沼澤。 三個(gè)引擎的初衷場(chǎng)景并不完全相同,Hudi為了 incremental的upserts, Iceberg定位于高性能的分析與可靠的數(shù)據(jù)管理, Delta定位于流批一體的數(shù)據(jù)處理。這種場(chǎng)景的不同也造成了三者在設(shè)計(jì)上的差別。尤其是Hudi,其設(shè)計(jì)與另外兩個(gè)相比差別 更為明顯。因此后面是趨同還筑起各自專長(zhǎng)優(yōu)勢(shì)壁壘未可知。Delta、Hu
6、di、Iceberg三個(gè)開(kāi)源項(xiàng)目中,Delta和Hudi跟Spark 的代碼深度綁定,尤其是寫入路徑。這兩個(gè)項(xiàng)目設(shè)計(jì)之初,都基本上把Spark作為他們的默認(rèn)計(jì)算引擎了。而Apache Iceberg 的方向非常堅(jiān)定,宗旨就是要做一個(gè)通用化設(shè)計(jì)的Table Format。它完美的解耦了計(jì)算引擎和底下的存儲(chǔ)系統(tǒng),便于多樣化計(jì) 算引擎和文件格式,很好的完成了數(shù)據(jù)湖架構(gòu)中的Table Format這一層的實(shí)現(xiàn),因此也更容易成為Table For
7、mat層的開(kāi)源事 實(shí)標(biāo)準(zhǔn)。另一方面,Apache Iceberg也在朝著流批一體的數(shù)據(jù)存儲(chǔ)層發(fā)展,manifest和snapshot的設(shè)計(jì),有效地隔離不同 transaction的變更,非常方便批處理和增量計(jì)算。并且,Apache Flink已經(jīng)是一個(gè)流批一體的計(jì)算引擎,二者都可以完美匹 配,合力打造流批一體的數(shù)據(jù)湖架構(gòu)。Apache Iceberg這個(gè)項(xiàng)目背后的社區(qū)資源非常豐富。在國(guó)外,Netflix、Apple> Linked
8、in> Adobe等公司都有PB級(jí)別的生產(chǎn)數(shù)據(jù)運(yùn)行在Apache Iceberg ±;在國(guó)內(nèi),騰訊這樣的巨頭也有非常龐大的數(shù)據(jù)跑在Apache Iceberg之上,最大的業(yè)務(wù)每天有幾十T的增量數(shù)據(jù)寫入。電商 文娛 體育 健康 出行 物流 金融數(shù) 據(jù) 準(zhǔn) 備 區(qū)( Staging)線 據(jù)離 數(shù)公共匯爵翳磐扁皿買賣家公共維度衰全站地區(qū)行業(yè)ODS散據(jù)應(yīng)用層買家育品會(huì)員人們可以通過(guò)搜索,方便地找到他們想要的數(shù)據(jù),進(jìn)而進(jìn)行分析。搜
9、索能力是數(shù)據(jù)湖的十分重要的能力。數(shù)據(jù)安全管控能力:對(duì)數(shù)據(jù)的使用權(quán)限進(jìn)行管控,對(duì)敏感數(shù)據(jù)進(jìn)行脫敏或加密處理,也是數(shù)據(jù)湖能商用所必須具備的能力。數(shù)據(jù)質(zhì)量檢驗(yàn)?zāi)芰Γ簲?shù)據(jù)質(zhì)量是分析正確的關(guān)鍵。因此必須對(duì)進(jìn)入數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量情況進(jìn)行檢驗(yàn)。及時(shí)發(fā)現(xiàn)數(shù)據(jù)湖中數(shù)據(jù)質(zhì)量的問(wèn)題。為有 效的數(shù)據(jù)探索提供保障。自助數(shù)據(jù)探索能力:應(yīng)該具備一系列好用的數(shù)據(jù)分析工具,以便各類用戶可以對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行自助探索。包括:支持對(duì)流、NoSQL、圖等多種存儲(chǔ)庫(kù)的聯(lián)合分
10、析能力支持交互式的大數(shù)據(jù)SQL分析支持AI、機(jī)器學(xué)習(xí)分析支持類似OLAP的BI分析支持報(bào)表的生成05數(shù)據(jù)湖的實(shí)現(xiàn)遇到了哪些問(wèn)題?數(shù)據(jù)湖剛提出來(lái)時(shí),只是一個(gè)樸素的理念。而從理念變成一個(gè)可以落地的系統(tǒng),就面臨著許多不得不考慮的現(xiàn)實(shí)問(wèn)題:首先, 把所有原始數(shù)據(jù)都存儲(chǔ)下來(lái)的想法,要基于一個(gè)前提,就是存儲(chǔ)成本很低。而今數(shù)據(jù)產(chǎn)生的速度越來(lái)越快、產(chǎn)生的量越來(lái)越大 的情況下,把所有原始數(shù)據(jù),不分價(jià)值大小,都存儲(chǔ)下來(lái),這個(gè)成本在經(jīng)濟(jì)上能不能接受,可能需要
11、打一個(gè)問(wèn)號(hào)。其次,數(shù)據(jù) 湖中存放這各類最原始的明細(xì)數(shù)據(jù),包括交易數(shù)據(jù)、用戶數(shù)據(jù)等敏感數(shù)據(jù),這些數(shù)據(jù)的安全怎么保證?用戶訪問(wèn)的權(quán)限如何控 制?再次,湖中的數(shù)據(jù)怎么治理?誰(shuí)對(duì)數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的定義、數(shù)據(jù)的變更負(fù)責(zé)?如何確保數(shù)據(jù)的定義、業(yè)務(wù)規(guī)則的一致性? 數(shù)據(jù)湖的理念很好,但是它現(xiàn)在還缺乏像數(shù)據(jù)倉(cāng)庫(kù)那樣,有一整套方法論為基礎(chǔ),有一系列具有可操作性的工具和生態(tài)為支撐。 正因如此,目前把Hadoop用來(lái)對(duì)特定的、高價(jià)值的數(shù)據(jù)進(jìn)行處理,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)
12、的模式,取得了較多的成功;而用來(lái)落實(shí)數(shù)據(jù) 湖理念的模式,遭遇了一系列的失敗。這里,總結(jié)一些典型的數(shù)據(jù)湖失敗的原因:1.數(shù)據(jù)沼澤:當(dāng)越來(lái)越多的數(shù)據(jù)接入到數(shù)據(jù)湖中,但是卻沒(méi)有有效的方法跟蹤這些數(shù)據(jù),數(shù)據(jù)沼澤就發(fā)生了。在這種失 敗中,人們把所有東西都放在HDFS中,期望以后可以發(fā)掘些什么,可沒(méi)多久他們就忘那里有什么。2.數(shù)據(jù)泥團(tuán):各種各樣的新數(shù)據(jù)接入進(jìn)數(shù)據(jù)湖中,它們的組織形式、質(zhì)量都不一樣。由于缺乏用于檢查,清理和重組數(shù) 據(jù)的自助服務(wù)工具,使
13、得這些數(shù)據(jù)很難創(chuàng)造價(jià)值。3.缺乏自助分析工具:由于缺乏好用的自助分析工具,直接對(duì)數(shù)據(jù)湖中的數(shù)據(jù)分析很困難。一般都是數(shù)據(jù)工程師或開(kāi)發(fā) 人員創(chuàng)建一個(gè)整理后的小部分?jǐn)?shù)據(jù)集,把這些數(shù)據(jù)集交付給更廣泛的用戶,以便他們使用熟悉的工具進(jìn)行數(shù)據(jù)分析。 這限制了更廣泛的人參與到探索大數(shù)據(jù)中,降低了數(shù)據(jù)湖的價(jià)值。6.7.缺乏建模的方法論和工具:在數(shù)據(jù)湖中,似乎每一項(xiàng)工作都得從頭開(kāi)始,因?yàn)橐郧暗捻?xiàng)目產(chǎn)生的數(shù)據(jù)幾乎沒(méi)有辦法重 用。其實(shí),我們罵數(shù)據(jù)倉(cāng)庫(kù)很難變化以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 最新大廠數(shù)據(jù)湖面試題及知識(shí)點(diǎn)總結(jié)
- 2018最新bat大數(shù)據(jù)面試題
- linux筆試面試知識(shí)點(diǎn)總結(jié)
- 最新-黨務(wù)崗位面試題
- 最新麻醉專業(yè)面試題
- sap abap面試知識(shí)點(diǎn)總結(jié)
- 最新社區(qū)面試題.doc
- 2018最新java面試題整理
- 數(shù)據(jù)分析面試題
- java面試基礎(chǔ)知識(shí)點(diǎn)總結(jié)
- 數(shù)據(jù)庫(kù)面試題
- 最新上海初中物理知識(shí)點(diǎn)總結(jié)
- 最新上海初中物理知識(shí)點(diǎn)總結(jié)
- 最新書(shū)記員面試題~
- 最新書(shū)記員面試題
- 數(shù)據(jù)庫(kù)筆試面試題
- 《數(shù)據(jù)結(jié)構(gòu)》知識(shí)點(diǎn)總結(jié)
- 數(shù)據(jù)庫(kù)面試題整理
- 最新中考數(shù)學(xué)復(fù)習(xí)知識(shí)點(diǎn)總結(jié)
- 面試題及答案
評(píng)論
0/150
提交評(píng)論