┊文章閱讀:次
01數(shù)據(jù)中臺功能架構(gòu)
數(shù)據(jù)中臺建設(shè)是一個宏大的工程,涉及整體規(guī)劃、組織搭建、中臺落地與運(yùn)營等方方面面的工作,本節(jié)重點(diǎn)從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺應(yīng)該如何搭建。一般來講,企業(yè)的數(shù)據(jù)中臺在物理形態(tài)上分為三個大層:工具平臺層、數(shù)據(jù)資產(chǎn)層和數(shù)據(jù)應(yīng)用層見圖4-2。
▲圖4-2數(shù)據(jù)中臺功能架構(gòu)
1.工具平臺層
工具平臺層是數(shù)據(jù)中臺的載體,包含大數(shù)據(jù)處理的基礎(chǔ)能力技術(shù),如集數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)安全等于一體的大數(shù)據(jù)平臺;還包含建設(shè)數(shù)據(jù)中臺的一系列工具,如離線或?qū)崟r數(shù)據(jù)研發(fā)工具、數(shù)據(jù)聯(lián)通工具、標(biāo)簽計(jì)算工具、算法平臺工具、數(shù)據(jù)服務(wù)工具及自助分析工具。
以上工具集基本覆蓋了數(shù)據(jù)中臺的數(shù)據(jù)加工過程。
1數(shù)據(jù)開發(fā)平臺
大數(shù)據(jù)的4V特征[1]決定了數(shù)據(jù)處理是一個復(fù)雜的工程。建設(shè)數(shù)據(jù)中臺需要搭建建設(shè)數(shù)據(jù)中臺的基建工具,要滿足各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲與處理,要根據(jù)場景處理離線和實(shí)時數(shù)據(jù)的計(jì)算與存儲,要將一個個數(shù)據(jù)處理任務(wù)串聯(lián)起來以保障數(shù)據(jù)的運(yùn)轉(zhuǎn)能賦能到業(yè)務(wù)端。
[1]大數(shù)據(jù)的4V指Volume數(shù)據(jù)量大、Variety類型繁多、Velocity速度快,效率高、Value價(jià)值密度低。
因此首先搭建一個大數(shù)據(jù)能力平臺是非常有必要的。當(dāng)然,可根據(jù)企業(yè)實(shí)際情況來決定是外采還是自建平臺。
2數(shù)據(jù)資產(chǎn)管理
數(shù)據(jù)中臺建設(shè)的成功與否,與數(shù)據(jù)資產(chǎn)是否管理有序有直接關(guān)系。前文提到,數(shù)據(jù)中臺是需要持續(xù)運(yùn)營的。隨著時間的推移,數(shù)據(jù)不斷涌入數(shù)據(jù)中臺,如果沒有一套井然有序的數(shù)據(jù)資產(chǎn)平臺來進(jìn)行管理,后果將不堪設(shè)想。
數(shù)據(jù)資產(chǎn)管理工具既能幫助企業(yè)合理評估、規(guī)范和治理信息資產(chǎn),又可以發(fā)揮數(shù)據(jù)資產(chǎn)價(jià)值并促進(jìn)數(shù)據(jù)資產(chǎn)持續(xù)增值。對于數(shù)據(jù)資產(chǎn)管理,我們不推薦事后管理,而要與數(shù)據(jù)研發(fā)的過程聯(lián)動。也就是說,當(dāng)數(shù)據(jù)經(jīng)過數(shù)據(jù)開發(fā)平臺加工的鏈路時,數(shù)據(jù)資產(chǎn)管理平臺就已經(jīng)無聲無息地介入了。
數(shù)據(jù)資產(chǎn)管理的首要任務(wù)是管理好進(jìn)入數(shù)據(jù)中臺的元數(shù)據(jù),這里的元數(shù)據(jù)包括數(shù)據(jù)源、建設(shè)的各種模型、通過模型拆解出來的指標(biāo)與標(biāo)簽以及調(diào)度作業(yè)。有序管理這些數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)是前提條件,只有做好了這一步,才能繼續(xù)對數(shù)據(jù)流向的追溯,才能對指標(biāo)、標(biāo)簽體系的生命周期進(jìn)行管理,確定指標(biāo)的使用頻率,決定是否下線。
3標(biāo)簽工廠
標(biāo)簽工廠又稱標(biāo)簽平臺,是數(shù)據(jù)中臺體系內(nèi)的明星工具類產(chǎn)品。標(biāo)簽建設(shè)是數(shù)據(jù)中臺走向數(shù)據(jù)業(yè)務(wù)化的關(guān)鍵步驟。因此,一個強(qiáng)大的標(biāo)簽工廠是數(shù)據(jù)中臺價(jià)值體現(xiàn)的有力保障。
嚴(yán)格來說,標(biāo)簽工廠也屬于數(shù)據(jù)開發(fā)平臺的一部分,為什么我們要把它單獨(dú)剝離出來講呢?這是因?yàn)闃?biāo)簽的使用場景豐富,標(biāo)簽與業(yè)務(wù)結(jié)合得非常緊密;同時,標(biāo)簽數(shù)據(jù)的存儲與分析型數(shù)據(jù)的存儲有一定的差異。
標(biāo)簽工廠致力于屏蔽底層復(fù)雜的大數(shù)據(jù)框架,面向普通開發(fā)人員、數(shù)據(jù)分析師、運(yùn)營人員提供友好的界面交互配置,完成標(biāo)簽的全生命周期管理;同時,對上層業(yè)務(wù)系統(tǒng)提供自身API能力,與各業(yè)務(wù)系統(tǒng)形成數(shù)據(jù)閉環(huán)。
標(biāo)簽工廠按功能一般分為兩部分:底層的標(biāo)簽計(jì)算引擎與上層的標(biāo)簽配置與管理門戶。標(biāo)簽計(jì)算引擎一般會采用MapReduce、Spark、Flink等大數(shù)據(jù)計(jì)算框架,而計(jì)算后的標(biāo)簽存儲可采用Elasticsearch或者HBase,這樣存儲的好處是便于快速檢索。
而標(biāo)簽配置與管理門戶則支持通過配置標(biāo)簽規(guī)則提交到標(biāo)簽計(jì)算引擎,就能定時算出所需要的標(biāo)簽。標(biāo)簽配置和管理門戶還提供標(biāo)準(zhǔn)的標(biāo)簽服務(wù)申請與調(diào)用。通過標(biāo)簽工廠,數(shù)據(jù)中臺團(tuán)隊(duì)可減少大量的數(shù)據(jù)開發(fā)工作。
4ID-Mapping
ID-Mapping又稱ID打通工具,是數(shù)據(jù)中臺建設(shè)的可選項(xiàng)??蛇x不代表不重要,在一些多渠道、多觸點(diǎn)的新零售企業(yè),離開了這個工具,數(shù)據(jù)質(zhì)量將大打折扣。
舉個例子。消費(fèi)者在逛街的時候看到一款剃須刀,掃了店內(nèi)的二維碼,正準(zhǔn)備下單購買時被朋友的電話中斷了?;氐郊?打開抖音又看到這個剃須刀的廣告,便立即打開鏈接下單購買了。
這樣的場景在生活中比比皆是,其中隱藏了很多的消費(fèi)者信息,如果我們不去打通ID,那么可能至少會將同一個用戶當(dāng)作4個用戶來處理。實(shí)際上可以將掃描二維碼記錄留下的OpenID、抖音注冊留下的微信號、下單提供的訂單手機(jī)號碼及注冊賬號等多條信息結(jié)合起來,判別是不是同一個人。這樣給這個消費(fèi)者打標(biāo)簽或者推薦商品就會更加精準(zhǔn)。
ID-Mapping功能的建設(shè)一般會利用強(qiáng)大的圖計(jì)算功能,通過兩兩之間的關(guān)系實(shí)現(xiàn)互通,自動高效地將關(guān)聯(lián)的身份映射為同一身份即唯一ID的數(shù)據(jù)工具。它能大幅度降低處理成本,提高效率,挖掘更多用戶信息,形成更完整的畫像,大大利于數(shù)字營銷的推進(jìn)。
另外,ID-Mapping工具也可用于企業(yè)主數(shù)據(jù)治理。
5機(jī)器學(xué)習(xí)平臺
在整個機(jī)器學(xué)習(xí)的工作流中,模型訓(xùn)練的代碼開發(fā)只是其中一部分。除此之外,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、特征提取、超參數(shù)的選擇與優(yōu)化、訓(xùn)練任務(wù)的監(jiān)控、模型的發(fā)布與集成、日志的回收等,都是流程中不可或缺的部分。
機(jī)器學(xué)習(xí)平臺支持訓(xùn)練數(shù)據(jù)的高質(zhì)量采集與高效標(biāo)注,內(nèi)置預(yù)訓(xùn)練模型,封裝機(jī)器學(xué)習(xí)算法,通過可視化拖曳實(shí)現(xiàn)模型訓(xùn)練,支持從數(shù)據(jù)處理、模型訓(xùn)練、模型部署為在線預(yù)測服務(wù),通過RESTfulAPI的形式與業(yè)務(wù)應(yīng)用集成,實(shí)現(xiàn)預(yù)測,打通機(jī)器學(xué)習(xí)全鏈路,幫助企業(yè)更好地完成傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的落地。
6統(tǒng)一數(shù)據(jù)服務(wù)
統(tǒng)一數(shù)據(jù)服務(wù)旨在為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務(wù)門戶,幫助企業(yè)提升數(shù)據(jù)資產(chǎn)的價(jià)值,同時保證數(shù)據(jù)的可靠性、安全性和有效性。
統(tǒng)一數(shù)據(jù)服務(wù)支持通過界面配置的方式構(gòu)建API和數(shù)據(jù)服務(wù)接口,以滿足不同數(shù)據(jù)的使用場景,同時降低數(shù)據(jù)的開發(fā)門檻,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)應(yīng)用價(jià)值最大化。
統(tǒng)一數(shù)據(jù)服務(wù)作為唯一的數(shù)據(jù)服務(wù)出口,實(shí)現(xiàn)了數(shù)據(jù)的統(tǒng)一市場化管理,在有效降低數(shù)據(jù)開放門檻的同時,保障了數(shù)據(jù)開放的安全。
2.數(shù)據(jù)資產(chǎn)層
數(shù)據(jù)資產(chǎn)層是數(shù)據(jù)中臺的核心層,它依托于工具平臺層,那么這一層又有什么內(nèi)容呢?答案是因企業(yè)的業(yè)務(wù)與行業(yè)而異,但總體來講,可以劃分為主題域模型區(qū)、標(biāo)簽?zāi)P蛥^(qū)和算法模型區(qū)。
1主題域模型
主題域模型是指面向業(yè)務(wù)分析,將業(yè)務(wù)過程或維度進(jìn)行抽象的集合。業(yè)務(wù)過程可以概括為一個個不可拆分的行為事件,如訂單、合同、營銷等。
為了保障整個體系的生命力,主題域即數(shù)據(jù)域需要抽象提煉,并且長期維護(hù)和更新,但是不輕易變動。在劃分?jǐn)?shù)據(jù)域時,既要涵蓋當(dāng)前所有業(yè)務(wù)的需求,又要保證新業(yè)務(wù)能夠無影響地被包含進(jìn)已有的數(shù)據(jù)域中或者很容易擴(kuò)展新的數(shù)據(jù)域。
數(shù)據(jù)域劃分需要先對業(yè)務(wù)系統(tǒng)進(jìn)行充分調(diào)研。將業(yè)務(wù)過程劃分到哪個數(shù)據(jù)域沒有絕對的對錯,但是會影響報(bào)表開發(fā)人員定位數(shù)據(jù)的效率,所以還需要從開發(fā)人員定位效率的角度來進(jìn)行綜合劃分。
2標(biāo)簽?zāi)P?/p>
標(biāo)簽?zāi)P偷脑O(shè)計(jì)與主題域模型方法大同小異,同樣需要結(jié)合業(yè)務(wù)過程進(jìn)行設(shè)計(jì),需要充分理解業(yè)務(wù)過程。標(biāo)簽一般會涉及企業(yè)經(jīng)營過程中的實(shí)體對象,如會員、商品、門店、經(jīng)銷商等。這些主體一般來說都穿插在各個業(yè)務(wù)流程中,比如會員一般都穿插在關(guān)注、注冊、瀏覽、下單、評價(jià)、服務(wù)等環(huán)節(jié)。
那么在設(shè)計(jì)標(biāo)簽的時候就需要充分理解這些業(yè)務(wù)流程,在流程中發(fā)現(xiàn)標(biāo)簽的應(yīng)用點(diǎn),結(jié)合這些應(yīng)用點(diǎn)來搭建企業(yè)的標(biāo)簽體系。
標(biāo)簽?zāi)P桶从?jì)算模式一般分為客觀標(biāo)簽和主觀標(biāo)簽,客觀標(biāo)簽是可以量化的,而主觀標(biāo)簽是不可量化的。根據(jù)實(shí)現(xiàn)方式又可以將標(biāo)簽分為事實(shí)標(biāo)簽、模型標(biāo)簽、算法標(biāo)簽等,根據(jù)業(yè)務(wù)場景還可將標(biāo)簽分為基礎(chǔ)信息標(biāo)簽、偏好標(biāo)簽、價(jià)值標(biāo)簽等。
設(shè)計(jì)標(biāo)簽?zāi)P蜁r非常關(guān)鍵的要素是標(biāo)簽?zāi)P鸵欢ㄒ哂锌蓴U(kuò)展性。畢竟標(biāo)簽這種數(shù)據(jù)資產(chǎn)是需要持續(xù)運(yùn)營的,也是有生命周期的,在運(yùn)營的過程中隨時可能增加新的標(biāo)簽。
3算法模型
算法模型更加貼近業(yè)務(wù)場景。在設(shè)計(jì)算法模型的時候要反復(fù)推演算法模型使用的場景,包括模型的冷啟動等問題。整個模型搭建過程包含定場景、數(shù)據(jù)源準(zhǔn)備、特征工程、模型設(shè)計(jì)、模型訓(xùn)練、正式上線、參數(shù)調(diào)整7個環(huán)節(jié)。
以新零售企業(yè)為例,常用的機(jī)器學(xué)習(xí)算法有決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類、貝葉斯、支持向量機(jī)等。這些算法已經(jīng)非常成熟,可以用來實(shí)現(xiàn)商品個性化推薦、銷量預(yù)測、流失預(yù)測、商品組貨優(yōu)化等新零售場景的算法模型。
3.數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層嚴(yán)格來說不屬于數(shù)據(jù)中臺的范疇,但數(shù)據(jù)中臺的使命就是為業(yè)務(wù)賦能,幾乎所有企業(yè)在建設(shè)數(shù)據(jù)中臺的同時都已規(guī)劃好數(shù)據(jù)應(yīng)用。數(shù)據(jù)應(yīng)用可按數(shù)據(jù)使用場景來劃分為以下多個使用領(lǐng)域。
1分析與決策應(yīng)用
分析與決策應(yīng)用主要面向企業(yè)的領(lǐng)導(dǎo)、運(yùn)營人員等角色,基于企業(yè)的業(yè)務(wù)背景和數(shù)據(jù)分析訴求,針對客戶拉新、老客運(yùn)營、銷售能力評估等分析場景,通過主題域模型、標(biāo)簽?zāi)P秃退惴P?為企業(yè)提供可視化分析專題。
用戶在分析與決策應(yīng)用中快速獲取企業(yè)現(xiàn)狀和問題,同時可對數(shù)據(jù)進(jìn)行鉆取、聯(lián)動分析等,深度分析企業(yè)問題及其原因,從而輔助企業(yè)進(jìn)行管理和決策,實(shí)現(xiàn)精準(zhǔn)管理和智能決策。
在分析專題設(shè)計(jì)的過程中,首先需要根據(jù)不同的業(yè)務(wù)分析場景,采用不同的分析方法進(jìn)行數(shù)據(jù)分析的前期規(guī)劃,搭建清晰的數(shù)據(jù)分析框架,如在用戶行為分析、營銷活動等場景下,會采用5W2H分析法和4P營銷理論;在復(fù)購客戶下降、客單價(jià)下降等問題診斷分析場景,需要考慮問題與哪些因素有關(guān),則采用邏輯樹分析法。
在數(shù)據(jù)分析框架構(gòu)建完成后,結(jié)合用戶的分析目的,采用不同的分析思路和呈現(xiàn)方式,包括趨勢分析、多維分解、漏斗分析、A/B測試、對比分析和交叉分析等。
2標(biāo)簽應(yīng)用
標(biāo)簽旨在挖掘?qū)嶓w對象如客戶、商品等的特征,將數(shù)據(jù)轉(zhuǎn)化成真正對業(yè)務(wù)有價(jià)值的產(chǎn)物并對外提供標(biāo)簽數(shù)據(jù)服務(wù),多應(yīng)用于客戶圈選、精準(zhǔn)營銷和個性化推薦等場景,從而實(shí)現(xiàn)資產(chǎn)變現(xiàn),不斷擴(kuò)大資產(chǎn)價(jià)值。
標(biāo)簽體系的設(shè)計(jì)立足于標(biāo)簽使用場景,不同使用場景對標(biāo)簽需求是不同的,譬如在客戶個性化推薦場景下,需要客戶性別、近期關(guān)注商品類型、消費(fèi)能力和消費(fèi)習(xí)慣等標(biāo)簽。
因此,在標(biāo)簽體系設(shè)計(jì)前,需要先基于業(yè)務(wù)需求分析標(biāo)簽的使用場景,再詳細(xì)設(shè)計(jì)標(biāo)簽體系和規(guī)則。在標(biāo)簽的使用過程中,可利用A/B測試等數(shù)據(jù)分析方式,持續(xù)分析標(biāo)簽的使用效果,并優(yōu)化標(biāo)簽體系和規(guī)則。
3智能應(yīng)用
智能應(yīng)用是數(shù)智化的一個典型外在表現(xiàn)。比如在營銷領(lǐng)域,不僅可實(shí)現(xiàn)千人千面的用戶個性化推薦,如猜你喜歡、加購?fù)扑]等,還可借助智能營銷工具進(jìn)行高精準(zhǔn)度的用戶觸達(dá),推動首購轉(zhuǎn)化、二購促進(jìn)、流失挽留等。
在供應(yīng)鏈領(lǐng)域,可通過數(shù)據(jù)中臺整合用戶數(shù)據(jù)、銷售數(shù)據(jù)、采購數(shù)據(jù)等優(yōu)化庫存,實(shí)現(xiàn)自動配補(bǔ)貨、自動定價(jià)。除了傳統(tǒng)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)之外,還可以融入深度學(xué)習(xí),實(shí)現(xiàn)以圖搜圖并與商城打通,實(shí)現(xiàn)拍立購;實(shí)現(xiàn)人臉識別,用于地產(chǎn)行業(yè)的案場風(fēng)控;融入自然語言處理,實(shí)現(xiàn)智能客服問答機(jī)器人等。
總之,以上各層是數(shù)據(jù)中臺的核心內(nèi)容。需要指出的是,在工具平臺層,企業(yè)并不需要完全自主建設(shè),可以考慮采用拿來主義,從中臺建設(shè)廠商采購成熟的產(chǎn)品,而數(shù)據(jù)資產(chǎn)層與數(shù)據(jù)應(yīng)用層是企業(yè)數(shù)據(jù)中臺組織需要密切關(guān)注的。
02數(shù)據(jù)中臺技術(shù)架構(gòu)
隨著大數(shù)據(jù)與人工智能技術(shù)的不斷迭代以及商業(yè)大數(shù)據(jù)工具產(chǎn)品的推出,數(shù)據(jù)中臺的架構(gòu)設(shè)計(jì)大可不必從零開始,可以采購一站式的研發(fā)平臺產(chǎn)品,或者基于一些開源產(chǎn)品進(jìn)行組裝。企業(yè)可根據(jù)自身情況進(jìn)行權(quán)衡考慮,但無論采用哪種方案,數(shù)據(jù)中臺的架構(gòu)設(shè)計(jì)以滿足當(dāng)前數(shù)據(jù)處理的全場景為基準(zhǔn)。
以開源技術(shù)為例,數(shù)據(jù)中臺的技術(shù)架構(gòu)如圖4-3所示,總體來看一般包含以下幾種功能:數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲和數(shù)據(jù)服務(wù);在研發(fā)、運(yùn)維和公共服務(wù)方面包括離線開發(fā)、實(shí)時開發(fā)、數(shù)據(jù)資產(chǎn)、任務(wù)調(diào)度、數(shù)據(jù)安全、集群管理。
▲圖4-3數(shù)據(jù)中臺技術(shù)架構(gòu)
1.數(shù)據(jù)采集層
按數(shù)據(jù)的實(shí)時性,數(shù)據(jù)采集分為離線采集和實(shí)時采集。離線采集使用DataX和Sqoop,實(shí)時采集使用KafkaConnect、Flume、Kafka。
在離線數(shù)據(jù)采集中,建議使用DataX和Sqoop相結(jié)合。DataX適合用在數(shù)據(jù)量較小且采用非關(guān)系型數(shù)據(jù)庫的場景,部署方式很簡單。Sqoop適合用在數(shù)據(jù)量較大且采用關(guān)系型數(shù)據(jù)庫的場景。
在實(shí)時數(shù)據(jù)采集中,對于數(shù)據(jù)庫的變更數(shù)據(jù),如MySQL的binlog、Oracle的OGG,使用KafkaConnect進(jìn)行數(shù)據(jù)的實(shí)時采集。對于其他數(shù)據(jù),先將數(shù)據(jù)實(shí)時寫成文件,然后采用Flume對文件內(nèi)容進(jìn)行實(shí)時采集。將實(shí)時采集后的數(shù)據(jù)推送到Kafka,由Flink進(jìn)行數(shù)據(jù)處理。
2.數(shù)據(jù)計(jì)算層
數(shù)據(jù)計(jì)算采用YARN作為各種計(jì)算框架部署的執(zhí)行調(diào)度平臺,計(jì)算框架有MapReduce、Spark及SparkSQL、Flink、SparkMLlib等。
MapReduce是最早開源的大數(shù)據(jù)計(jì)算框架,雖然現(xiàn)在性能相對較差,但它的資源占用比較小,尤其是內(nèi)存方面。因此在部分?jǐn)?shù)據(jù)量過大,而其他計(jì)算框架由于硬件資源的限制主要是內(nèi)存限制而無法執(zhí)行的場景,可以將MapReduce作為備選框架。
Spark及SparkSQL是在批處理方面擁有出色性能的成熟技術(shù)方案,適合大部分的離線處理場景。特別是在離線數(shù)據(jù)建模方面,建議使用SparkSQL進(jìn)行數(shù)據(jù)處理,既能保證易用性,又能保證處理的性能。Flink是實(shí)時數(shù)據(jù)處理方面的首選,在處理的時效性、性能和易用性方面都有很大優(yōu)勢。
而機(jī)器學(xué)習(xí)一般采用Spark家族的SparkMLlib為技術(shù)底座。SparkMLlib內(nèi)置了大量的常規(guī)算法包,如隨機(jī)森林、邏輯回歸、決策樹等,可以滿足大部分?jǐn)?shù)據(jù)智能應(yīng)用場景。
同時,數(shù)據(jù)中臺不斷進(jìn)化,也逐漸融入AI能力。如人臉識別、以圖搜圖、智能客服等能力的實(shí)現(xiàn)就需要AI平臺。目前較為成熟的AI平臺有TensorFlow及PyTorch。為實(shí)現(xiàn)物體的檢測和識別,可使用SSD、YOLO和ResNet等深度學(xué)習(xí)模型,而在人臉檢測和識別中則主要使用MTCNN、RetinaNet和ResNet,人臉檢索可使用Facebook開源的針對人臉檢索的Faiss框架。
3.數(shù)據(jù)存儲層
數(shù)據(jù)存儲層所有的存儲引擎都基于Hadoop的HDFS分布式存儲,從而達(dá)到數(shù)據(jù)多份冗余和充分利用物理層多磁盤的I/O性能。在HDFS上分別搭建Hive、HBase作為存儲數(shù)據(jù)庫,在這兩個數(shù)據(jù)庫的基礎(chǔ)上再搭建Impala、Phoenix、Presto引擎。
Hive為大數(shù)據(jù)廣泛使用的離線數(shù)據(jù)存儲平臺,用于存儲數(shù)據(jù)中臺的全量數(shù)據(jù),在建模階段可以使用HiveSQL、SparkSQL進(jìn)行數(shù)據(jù)處理和建模。
HBase為主流的大數(shù)據(jù)NoSQL,適合數(shù)據(jù)的快速實(shí)時讀寫。在實(shí)時數(shù)據(jù)處理時,可將數(shù)據(jù)實(shí)時保存到HBase中,并且可以從HBase中實(shí)時讀取數(shù)據(jù),從而滿足數(shù)據(jù)的時效性。
Impala可以對Hive、HBase等大數(shù)據(jù)數(shù)據(jù)庫進(jìn)行準(zhǔn)實(shí)時的數(shù)據(jù)分析,能滿足對分析結(jié)果速度有一定要求的場景。
Phoenix是構(gòu)建在HBase上的一個SQL層,能讓我們用標(biāo)準(zhǔn)的JDBCAPI而不是HBase客戶端API來創(chuàng)建表、插入數(shù)據(jù)和對HBase數(shù)據(jù)進(jìn)行查詢。
Presto是一個開源的分布式SQL查詢引擎,適用于交互式分析查詢。Presto支持Hive、HBase、MySQL等多種關(guān)系型和大數(shù)據(jù)數(shù)據(jù)庫的查詢,并且支持join表。對于對接自助分析和統(tǒng)一數(shù)據(jù)服務(wù)的場景,可以通過Presto來統(tǒng)一訪問具體存儲的數(shù)據(jù)庫,從而達(dá)到語法統(tǒng)一和數(shù)據(jù)源統(tǒng)一。
4.數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層采用的技術(shù)與業(yè)務(wù)應(yīng)用類似,主要基于開源SpringCloud、SpringBoot等構(gòu)建,使用統(tǒng)一的服務(wù)網(wǎng)關(guān)。
關(guān)于作者:陳新宇,云徙科技聯(lián)合創(chuàng)始人兼首席架構(gòu)師,中國軟件行業(yè)協(xié)會應(yīng)用軟件產(chǎn)品云服務(wù)分會“數(shù)字企業(yè)中臺應(yīng)用專家顧問團(tuán)”副主任專家,香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)博士,領(lǐng)導(dǎo)云徙科技數(shù)字中臺系統(tǒng)的規(guī)劃、建設(shè)并賦能企業(yè)落地實(shí)施。
羅家鷹,云徙科技副總裁,上海交通大學(xué)學(xué)士,中山大學(xué)MBA。近四年來,一直致力于阿里中臺賦能數(shù)字商業(yè)的研究與布道。擁有20年的企業(yè)咨詢及服務(wù)經(jīng)驗(yàn),先后主導(dǎo)了數(shù)十家大型企業(yè)的數(shù)字化轉(zhuǎn)型咨詢方案。
江威,云徙科技地產(chǎn)事業(yè)部總經(jīng)理,領(lǐng)導(dǎo)中臺在地產(chǎn)方面的建設(shè)與落地,長期從事阿里中臺賦能地產(chǎn)行業(yè)的研究與布道,擁有豐富的地產(chǎn)項(xiàng)目實(shí)施經(jīng)驗(yàn)。
鄧通,云徙科技汽車事業(yè)部總經(jīng)理,香港中文大學(xué)信息工程碩士,專注于汽車行業(yè)數(shù)字化營銷研究。
Copyright @ 2013-2020 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。