前言 阿里巴巴的數(shù)據(jù)中臺側重對“煙囪式”應用數(shù)據(jù)的標準化和聚合,構建公共數(shù)據(jù)模型,發(fā)掘對內賦能運營和商家的數(shù)據(jù)價值。華為的數(shù)據(jù)中臺側重生態(tài)合作,主打數(shù)據(jù)底座,再集成生態(tài)伙伴的數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)資產管理等工具。國網(wǎng)數(shù)據(jù)中臺包括數(shù)據(jù)模型、算法服務、數(shù)據(jù)產品、數(shù)據(jù)管理等,和企業(yè)的業(yè)務有較強的關聯(lián)性,是企業(yè)獨有的且能復用的。 1 數(shù)據(jù)中臺解決方案現(xiàn)狀 1.1阿里巴巴數(shù)據(jù)中臺 阿里巴巴的淘寶和天貓的業(yè)務最初由同一個技術團隊開發(fā)維護,經(jīng)常會出現(xiàn)資源協(xié)調不平衡的問題,阻礙業(yè)務發(fā)展。天貓和淘寶電商系統(tǒng)是完全獨立的體系,但又同時包含了商品、交易、評價、支付、物流等相同功能,導致系統(tǒng)出現(xiàn)冗余情況、重復性開發(fā)等問題。因此,阿里巴巴啟動“中臺戰(zhàn)略”,構建符合DT時代的“大中臺、小前臺”組織機制和業(yè)務機制:將兩套電商的業(yè)務進行梳理,把公共的、通用的業(yè)務功能沉淀到共享事業(yè)部,避免功能的重復建設和維護,更合理地利用技術資源;把兩套電商的業(yè)務中商品、交易、評價、支付、物流等同類型的可共享的數(shù)據(jù)沉淀到數(shù)據(jù)中臺,用融合后的數(shù)據(jù)對前臺統(tǒng)一提供數(shù)據(jù)服務。這樣的機制對支持前臺的一線業(yè)務會更敏捷、更快速適應瞬息萬變的市場。阿里巴巴數(shù)據(jù)中臺的業(yè)務架構如下圖所示。 阿里巴巴數(shù)據(jù)中臺包括計算與存儲平臺、數(shù)據(jù)資產管理、智能數(shù)據(jù)研發(fā)、統(tǒng)一數(shù)據(jù)服務中間件四大模塊。數(shù)據(jù)服務中間件又分為萃取數(shù)據(jù)中心、公共數(shù)據(jù)中心和垂直數(shù)據(jù)中心三層,垂直數(shù)據(jù)中心負責從阿里巴巴旗下各個業(yè)務單元采集數(shù)據(jù);公共數(shù)據(jù)中心類似數(shù)據(jù)倉庫,將所有數(shù)據(jù)按不同主題域(電商、文娛、營銷、物流、金融等)分類管理。這兩層實現(xiàn)了對全域數(shù)據(jù)的整合和集中化管理。萃取數(shù)據(jù)中心負責按照業(yè)務需求,將各主題域數(shù)據(jù)加工處理,建立起消費者、企業(yè)、內容、商品、位置五大數(shù)據(jù)體系,深度萃取數(shù)據(jù)價值。數(shù)據(jù)服務中間件涉及到的數(shù)據(jù)研發(fā)按照規(guī)范化的數(shù)據(jù)架構(數(shù)據(jù)倉庫規(guī)劃、數(shù)據(jù)模型構建、指標定義規(guī)范等),實現(xiàn)數(shù)據(jù)口徑、數(shù)據(jù)模型標準化。另外集成數(shù)據(jù)資產管理能力,從數(shù)據(jù)的運營、應用、管理、分析、可視化五方面統(tǒng)一管理數(shù)據(jù)資產。通過這樣的架構設計,阿里巴巴實現(xiàn)了對下屏蔽各數(shù)據(jù)來源不同的現(xiàn)狀,對上提供統(tǒng)一的數(shù)據(jù)服務接口和標準化數(shù)據(jù)。新的業(yè)務需求再出現(xiàn)時,開發(fā)人員不用再從頭做起,直接基于數(shù)據(jù)中臺提供的能力,就可以快速完成新應用開發(fā)。 1.2華為數(shù)據(jù)中臺 華為提出的“大平臺炮火支撐精兵作戰(zhàn)”的企業(yè)戰(zhàn)略,這正是中臺的理念。華為的數(shù)據(jù)中臺方案側重于基于數(shù)據(jù)湖的數(shù)據(jù)底座建設,其數(shù)據(jù)中臺設計理念如下圖所示。 在數(shù)據(jù)底座層,F(xiàn)usionInsight(FI)HD是一個分布式數(shù)據(jù)處理系統(tǒng),對外提供大容量的數(shù)據(jù)存儲、分析查詢和實時流式數(shù)據(jù)處理分析能力。GaussDB200是企業(yè)級的大規(guī)模并行處理關系型數(shù)據(jù)庫,采用大規(guī)模并行處理(MPP)架構,支持 PB級別數(shù)據(jù)量的處理能力。AI平臺通過FusionMind增強自動化機器學習、半自動化數(shù)據(jù)標注,大幅提升AI開發(fā)效率。同時還集成了第三方平臺,包括數(shù)據(jù)安全、數(shù)據(jù)容災、時序數(shù)據(jù)庫等。數(shù)據(jù)底座之上,通過數(shù)據(jù)治理、數(shù)據(jù)集成、數(shù)據(jù)開發(fā)三平臺來打造全域數(shù)據(jù)模型。 數(shù)據(jù)治理平臺提供基于內置規(guī)則模板的數(shù)據(jù)質量分析、監(jiān)控、稽核工具,又構造數(shù)據(jù)地圖提供基本的業(yè)務元數(shù)據(jù)管理、數(shù)據(jù)目錄搜索功能。數(shù)據(jù)集成平臺集成Flink流計算,支持MySQL、Oracle、實時采集等多種數(shù)據(jù)源。數(shù)據(jù)開發(fā)平臺支持對作業(yè)及資源進行權限控制,對接數(shù)據(jù)管理服務,提高開發(fā)效率。全域數(shù)據(jù)模型提供了從貼源層到集市層多層次的加工數(shù)據(jù),適合數(shù)據(jù)分析師按需選用。數(shù)據(jù)中臺對外提供的自助分析、高級分析、數(shù)據(jù)API。 2 國網(wǎng)數(shù)據(jù)中臺 國家電網(wǎng)有限公司在基礎設施、人員團隊、營銷運檢等業(yè)務流程,沉淀了豐富的數(shù)據(jù)資源?;A設備接入智能電表終端5.4億臺,車聯(lián)網(wǎng)接入充電樁超過28萬個,企業(yè)員工超過186萬人,供電人口超過11億人,電商平臺注冊用戶2.25億人,建成地市供電服務指揮中心336家。然而,各部門依據(jù)自身業(yè)務建立信息系統(tǒng),系統(tǒng)間數(shù)據(jù)未有效貫通、共享公用。數(shù)據(jù)在業(yè)務支撐、效率效益和工作質量等方面價值發(fā)揮不充分。 國網(wǎng)需要把沒有采集的信息采集起來,沒有共享的數(shù)據(jù)即時共享出來,沒有用好的數(shù)據(jù)價值挖掘出來,讓數(shù)據(jù)價值達到最大化。國家電網(wǎng)也急需打破管道化狀態(tài),整合各部門的數(shù)據(jù)資產以及社會資源,對外開放共享合作,衍生新興產業(yè),發(fā)揮產業(yè)鏈價值。數(shù)據(jù)中臺是調解前臺和后臺矛盾的中間層,通過后臺數(shù)據(jù)的建模、數(shù)據(jù)服務的聚合提供一個可復用、標準化、敏捷式的數(shù)據(jù)平臺,支撐前臺應對市場快速變化的需求。數(shù)據(jù)中臺包括數(shù)據(jù)模型、算法服務、數(shù)據(jù)產品、數(shù)據(jù)管理等,和企業(yè)的業(yè)務有較強的關聯(lián)性,是企業(yè)獨有的且能復用的。中臺的建設目標是降低重復建設,減少煙囪式協(xié)作的成本,也是企業(yè)差異化競爭、數(shù)字化轉型的優(yōu)勢所在。 2.1“六維度”建設理念 1)壁壘:對內打破部門間的壁壘,對外打破行業(yè)壁壘,通過數(shù)據(jù)交叉融合實現(xiàn)合作共贏。 2)標準:制定數(shù)據(jù)標準,統(tǒng)一數(shù)據(jù)口徑,便于數(shù)據(jù)質量治理、數(shù)據(jù)分析、價值挖掘。 3)資產化:對數(shù)據(jù)進行收集、治理、建模等操作,讓數(shù)據(jù)成為可用、易用、通用的數(shù)據(jù)資產。 4)貼近業(yè)務:通過業(yè)務專題劃分,讓數(shù)據(jù)更貼近業(yè)務,為上層提供精準、全面的數(shù)據(jù)服務。 5)智能:通過數(shù)據(jù)的自動挖掘和人工自定義挖掘、常用AI算法模塊,提供智能化數(shù)據(jù)服務。 6)敏捷:提供易操作的自助式分析工具、建模工具、服務發(fā)布工具,快速滿足前臺需求。 2.2“五能力”重點建設 1)數(shù)據(jù)接入:需具備數(shù)據(jù)抽取、轉換、復制、遷移、同步等能力,把異構數(shù)據(jù)源接入到數(shù)據(jù)中臺。 2)數(shù)據(jù)治理:基于數(shù)據(jù)標準制定,提供元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)質量管理等能力。 3)存儲計算:需提供針對不同數(shù)據(jù)源和不同數(shù)據(jù)應用分析需求的多種存儲方式,同時具備實時計算、離線批處理計算能力。 4)數(shù)據(jù)建模:需提供數(shù)據(jù)建模工具集,方便建立基礎數(shù)據(jù)模型、聚合數(shù)據(jù)模型、通用分析模型,兼具BI建模、AI建模、模型評估、模型部署能力。 5)數(shù)據(jù)服務:需具備數(shù)據(jù)服務開發(fā)與發(fā)布、服務目錄管理、服務路由、訪問日志與服務監(jiān)控能力。 2.3架構設計 數(shù)據(jù)中臺架構分為5個層次,如下圖所示. 自底向上依次為: 1)數(shù)據(jù)接入層:支撐將各類異構數(shù)據(jù)從數(shù)據(jù)源層抽取、轉換、同步到上層。主要方式為:ETL、實時采集、數(shù)據(jù)復制、流數(shù)據(jù)接入、FTP、日志采集等; 2)數(shù)據(jù)治理層:通過元數(shù)據(jù)管理、數(shù)據(jù)字典與主數(shù)據(jù)管理、數(shù)據(jù)質量管理等一系列方式實現(xiàn)企業(yè)數(shù)據(jù)管控,清晰地了解數(shù)據(jù)分布情況,最大限度地提高數(shù)據(jù)可靠性,為上層提供堅實的“數(shù)據(jù)底座”; 3)數(shù)據(jù)模型層:首先將全域數(shù)據(jù)的基礎表按主題歸類,形成全業(yè)務基礎模型,如人員類、財務類、客戶類、電網(wǎng)類等。為便于快速分析應用,又按主題及主數(shù)據(jù)與多維度數(shù)據(jù)的關聯(lián)關系,聚合成一系列寬表模型,如人員寬表、財務寬表、客戶寬表、電網(wǎng)寬表等。上述模型構成了數(shù)據(jù)資產,利用數(shù)據(jù)資產目錄管理工具進行管控; 4)通用分析模型層:是貼近業(yè)務場景而抽象出來的具有通用性的高級模型,例如信用評級模型,可同時為優(yōu)質客戶的增值業(yè)務場景(對內)、金融機構貸款授信場景(對外)等提供數(shù)據(jù)服務。其他通用分析模型還有預測模型、故障診斷模型、欺詐預警模型等; 5)數(shù)據(jù)服務層:提供數(shù)據(jù)服務化工具和高可用服務響應能力,并對服務性能進行監(jiān)控,另外,數(shù)據(jù)訪問日志記錄了服務、數(shù)據(jù)的調用頻度,借此衡量數(shù)據(jù)熱度。上層應用通過數(shù)據(jù)服務層既能訪問數(shù)據(jù)模型層的數(shù)據(jù),又能訪問通用分析模型層的高級模型,達到快速構建數(shù)據(jù)應用和探索挖掘的目的。 3 方案特色 在數(shù)據(jù)中臺“五能力”中,數(shù)據(jù)接入、數(shù)據(jù)治理、存儲計算基于Hadoop開源組件。數(shù)據(jù)建模、數(shù)據(jù)服務兩大核心能力是方案的亮點。 3.1數(shù)據(jù)建模平臺 可視化數(shù)據(jù)挖掘建模平臺通過數(shù)據(jù)挖掘應用工具化的模式,將常用的數(shù)據(jù)挖掘算法、AI算法抽象封裝為模塊,使數(shù)據(jù)應用開發(fā)的速度更快、成本更低。設計遵循跨行業(yè)數(shù)據(jù)挖掘標準流程方法論,把數(shù)據(jù)挖掘看作一個業(yè)務過程,并將其具體的業(yè)務目標映射為數(shù)據(jù)挖掘目標,這個流程確定了一個數(shù)據(jù)挖掘建模項目的生命周期:①業(yè)務理解,了解進行數(shù)據(jù)挖掘的業(yè)務流程和數(shù)據(jù)挖掘目標;②數(shù)據(jù)理解,深入了解可用于挖掘的數(shù)據(jù);③數(shù)據(jù)準備,對待挖掘數(shù)據(jù)進行合并、匯總、排序、樣本選取等操作;④建立模型,根據(jù)前期準備的數(shù)據(jù)選取合適的模型;⑤模型評估,使用在業(yè)務理解階段設立的業(yè)務成功標準對模型進行評估;⑥結果部署,使用挖掘后的結果提升業(yè)務的過程。 3.2基于SpringCloud的數(shù)據(jù)服務平臺 基于SpringCloud框架,為數(shù)據(jù)中臺的最終對外賦能提供了數(shù)據(jù)服務“窗口”,核心功能包括服務發(fā)布、服務目錄管理、服務路由,另外增加了服務開發(fā)和服務監(jiān)控組件使平臺功能更加完整。平臺架構如下圖所示。 1)數(shù)據(jù)服務開發(fā)。該組件幫助用戶對建模平臺部署的模型進行服務化封裝,包括數(shù)據(jù)模型、業(yè)務模型、作業(yè)流程的服務化和dataAPI接口定義。 2)數(shù)據(jù)服務發(fā)布。這是數(shù)據(jù)服務平臺的核心部分,通過對Eureka的二次封裝實現(xiàn)服務發(fā)布。Eureka提供了服務端和客戶端,服務端是服務注冊中心,客戶端完成服務的注冊和發(fā)現(xiàn)。平臺提供4種類型的數(shù)據(jù)服務發(fā)布,有結果集、源數(shù)據(jù)、消息和文件服務。 3)數(shù)據(jù)服務目錄。該組件基于Eureka進行服務目錄治理、服務自維護,服務提供方主動向服務治理中心注冊,服務的消費者通過服務治理中心查詢需要的服務并調用,或者訂閱服務。服務的消費者必須經(jīng)過數(shù)據(jù)訪問權申請和審批才可訪問服務。另外,對接口服務和批量服務需采用不同的管理目錄和方式,批量服務的權限管理更復雜嚴格。 4)數(shù)據(jù)服務路由。該層負責數(shù)據(jù)服務的負載均衡和過載保護,保證服務的高并發(fā)性和高可用性,綜合利用Nginx反向代理機制、Eureka自身的負載均衡、Kafka隊列、Redis緩存機制來支撐。 5)訪問日志與數(shù)據(jù)服務監(jiān)控。作為輔助工具,完成使用頻度、數(shù)據(jù)流向、批量任務指標、接口指標、服務器運維指標、服務的健康檢查等工作。 4 數(shù)據(jù)中臺的應用 國網(wǎng)數(shù)據(jù)中臺的最終目的是對企業(yè)內部增強精益化管理、提高數(shù)據(jù)分析效率和預測能力,對企業(yè)外部提供創(chuàng)新型數(shù)據(jù)產品、拓寬企業(yè)盈利增長點。下面以“企業(yè)客戶電力大數(shù)據(jù)征信”為例,講述如何利用數(shù)據(jù)中臺構建創(chuàng)新型數(shù)據(jù)產品,開放外部變現(xiàn)數(shù)據(jù)服務。 場景說明:以電費、電量數(shù)據(jù)為核心,分析企業(yè)電費電量變化趨勢,推測其全年產能和經(jīng)營穩(wěn)定性,構建包含欠費、繳費、用電行為等關鍵指標的客戶信用模型,進行信用評分評級,生成電力信用報告,為銀行業(yè)金融機構提供電力大數(shù)據(jù)征信產品,以數(shù)據(jù)服務接口形式對外有償發(fā)布。實施步驟如下。 1)指標體系的建立。圍繞企業(yè)貸款的兩大考察因素——還款能力和還款意愿,構建5個一級指標類:經(jīng)營能力、行為法律信用(如違章用電、竊電、違約金拖欠)、經(jīng)濟法律信用(如欠費)、安全評價、合作信用,以及22個二級指標,構成信用評價指標體系。 2)根據(jù)數(shù)據(jù)資產目錄定位指標所需數(shù)據(jù)。即追溯要計算的每個指標所需的數(shù)據(jù)源端、貼源層、共享層,數(shù)據(jù)是否具備、如何預處理,建立各項指標的數(shù)據(jù)血緣。 3)利用數(shù)據(jù)建模平臺輔助推薦合理的指標權重。采用層次分析法(AHP)對指標體系的22個二級指標進行重要性評估,最后進行權重歸一化。 4)制定每個指標的評分規(guī)則。利用建模平臺,通過調用缺失值處理、異常值檢測、分箱技術組件,把每個指標的全量數(shù)據(jù)按數(shù)據(jù)密度進行分箱。再根據(jù)分箱結果即數(shù)據(jù)密度分布情況,給出較為合理的指標評分規(guī)則,設定的指標評分規(guī)則見上表。 5)開發(fā)信用評級模型算法。利用建模平臺,完成所有指標和評分規(guī)則的開發(fā)和測試。 6)電力數(shù)據(jù)征信服務的發(fā)布。利用數(shù)據(jù)服務平臺將信用評級模型發(fā)布為數(shù)據(jù)服務,提供3種服務接口:①僅查詢電力征信總得分;②簡版征信報告:獲得完整的評價報告(分指標得分);③詳版征信報告:獲得每項指標的實際數(shù)據(jù),金融機構自行解讀。用戶基于電網(wǎng)企業(yè)數(shù)據(jù)中臺,還可以進行很多有價值的場景分析挖掘,借助數(shù)據(jù)中臺能夠形成電網(wǎng)全業(yè)務分析、建模、應用的“眾創(chuàng)”局面。 5數(shù)據(jù)中臺價值 數(shù)據(jù)中臺的價值體現(xiàn)在“準、快、省”三個方面: 1)準:通過制定全業(yè)務數(shù)據(jù)標準模型,解決了數(shù)據(jù)互通的訴求,統(tǒng)一數(shù)據(jù)歸集和出口;建立元數(shù)據(jù)、數(shù)據(jù)地圖、血緣,做到數(shù)據(jù)可管理、可溯源、可核對;解決了決策支持時數(shù)據(jù)片面、不準確的問題。 2)快:數(shù)據(jù)的統(tǒng)一歸集最大程度地避免了重復數(shù)據(jù)抽?。粩?shù)據(jù)建模分析技術組件的透明封裝,大大提高了數(shù)據(jù)處理和分析效率;通過共性數(shù)據(jù)模型和數(shù)據(jù)服務的封裝、預建各種主題、維度、明細匯總、指標等技術手段,大大縮短了海量數(shù)據(jù)的處理時間。 3)省:節(jié)省開發(fā)時間就是節(jié)省成本,數(shù)據(jù)的統(tǒng)一歸集和出口,最大限度地避免了各部門在數(shù)據(jù)存儲計算資源上的濫用,降低了硬件成本。 |
|
來自: 數(shù)據(jù)治理精英館 > 《待分類》