拿著舊地圖是不可能找到新大陸的! 馬云老師早些年在香港青年創(chuàng)業(yè)營上有公開說過DT,阿里巴巴也是較早構(gòu)建數(shù)據(jù)中臺的企業(yè)。但是馬老師沒說數(shù)據(jù)中臺背后的目的和數(shù)據(jù)背后的力量。 本文筆者先講什么是數(shù)據(jù)中臺、然后講理想的數(shù)據(jù)中臺的架構(gòu)、再講駕馭數(shù)據(jù)中臺要懂的技術(shù)、并結(jié)合思維新地圖判斷數(shù)據(jù)中臺會是下一個風(fēng)口嗎?最后講從數(shù)據(jù)中臺到AI中臺是一種自然生長。 一、什么是數(shù)據(jù)中臺?1. 中臺概念的來源美軍在二戰(zhàn)時,以軍來為單位作戰(zhàn);到了越戰(zhàn)時,以營為單位作戰(zhàn);到了中東戰(zhàn)斗的時候,以7人或者11人的極小班排去作戰(zhàn),這是今天最靈活的軍事組織,也是核心競爭力和打擊能力最強的一個組織。而美軍之所以能靈活作戰(zhàn),敢放這么小的團隊到前方,是因為有非常強的導(dǎo)彈指揮系統(tǒng),有非常強大的中臺能力,能支持這樣的小團隊快速做判斷,并且引領(lǐng)整個打擊。 2. 商業(yè)中臺的演化隨著阿里巴巴、華為的業(yè)務(wù)發(fā)展,平臺業(yè)務(wù)線越來越多,例如:據(jù)筆者此前的一份調(diào)研,阿里巴巴旗下某中等BU(事業(yè)群),一年生產(chǎn)出來117款產(chǎn)品,順利年終上線的有10幾款,有社會知名度的有幾款,被集團老板馬老師記住的整個部門沒有一款。 分析產(chǎn)生這種問題的原因是,100多條產(chǎn)品線實際領(lǐng)到的任務(wù)均是為了大BU淘系服務(wù),且針對淘系廣告相關(guān)的服務(wù),例如圍繞直通車、鉆展等服務(wù)的產(chǎn)品,并沒有調(diào)動研發(fā)創(chuàng)造產(chǎn)品的團隊積極性。 所以阿里由美式中臺演化到阿里組織中臺,然后根據(jù)產(chǎn)品是長出來的而不是規(guī)劃出來的隨著阿里各個業(yè)務(wù)線數(shù)據(jù)的增長又由組織中臺演化到數(shù)據(jù)中臺,當(dāng)然數(shù)據(jù)中臺也不是阿里的最終目標。 3. 數(shù)據(jù)中臺的廣義定義數(shù)據(jù)中臺是指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時統(tǒng)一標準和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標準數(shù)據(jù),再進行存儲,形成大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務(wù)。 這些服務(wù)跟企業(yè)的業(yè)務(wù)有較強的關(guān)聯(lián)性,是這個企業(yè)獨有的且能復(fù)用的,它是企業(yè)業(yè)務(wù)和數(shù)據(jù)的沉淀,其不僅能降低重復(fù)建設(shè)、減少煙囪式協(xié)作的成本,上面的阿里巴巴100多個同系列產(chǎn)品同時服務(wù)一個淘系就屬于煙囪式。 廣義的數(shù)據(jù)中臺包括了數(shù)據(jù)技術(shù),比如對海量數(shù)據(jù)進行采集、計算、存儲、加工的一系列技術(shù)集合,時下我們談到的數(shù)據(jù)中臺包括數(shù)據(jù)模型,算法服務(wù),數(shù)據(jù)產(chǎn)品,數(shù)據(jù)管理等等,和企業(yè)的業(yè)務(wù)有較強的關(guān)聯(lián)性,是企業(yè)獨有的且能復(fù)用的,比如企業(yè)自建的2000個基礎(chǔ)模型,300個融合模型,5萬個標簽。 數(shù)據(jù)中臺廣義上是企業(yè)業(yè)務(wù)和數(shù)據(jù)的沉淀,其不僅能降低重復(fù)建設(shè),減少煙囪式協(xié)作的成本,也是差異化競爭優(yōu)勢所在。 二、理想的數(shù)據(jù)中臺架構(gòu)我們都知道遠洋運輸中,不論什么合法貨物都能裝進集裝箱里,集裝箱就是很好的架構(gòu),類似理想的數(shù)據(jù)中臺架構(gòu)如下圖: 通過以上架構(gòu)圖,可以看出,數(shù)據(jù)中臺模式有以下一些特點:
三、數(shù)據(jù)中臺需要懂的技術(shù)1. 技術(shù)切入點是從構(gòu)建數(shù)據(jù)倉庫 各種數(shù)據(jù)平臺的技術(shù)入手數(shù)據(jù)倉庫的構(gòu)建如下圖: 上圖可見,最左側(cè)數(shù)據(jù)源這點很好理解,但是很難辦理實現(xiàn)。因為數(shù)據(jù)有個特點是每家的數(shù)據(jù)有每家的業(yè)務(wù)特征,但是這些特征難以團聚,即數(shù)據(jù)孤島!
2. 技術(shù)實操點(1)實操數(shù)據(jù)存儲 起源數(shù)據(jù)治理平臺管理的數(shù)據(jù)存儲范圍包括:數(shù)據(jù)倉庫中的Topic層和數(shù)據(jù)應(yīng)用層,存儲方式包括:Hive、MySQL、Kylin、Palo、ES、Druid。 如下圖所示: 上圖所示的這些數(shù)據(jù)存儲中的數(shù)據(jù)的加工過程,由數(shù)據(jù)開發(fā)工程師負責(zé),具體采用哪種存儲介質(zhì),由數(shù)據(jù)開發(fā)工程師綜合所需數(shù)據(jù)存儲空間、查詢效率、模型的組織形式等因素決定。但后續(xù)的使用維護都由起源數(shù)據(jù)治理平臺管理,管理方式是通過管理這些數(shù)據(jù)表的元數(shù)據(jù)信息和查詢實現(xiàn)。 數(shù)據(jù)存儲托管之后,數(shù)據(jù)表元數(shù)據(jù)信息變更監(jiān)控、表數(shù)據(jù)生產(chǎn)(存儲空間、生產(chǎn)狀態(tài)及完成時間)監(jiān)控、表數(shù)據(jù)波動(同環(huán)比等)監(jiān)控以及表的使用(模型的構(gòu)建及查詢效率等)監(jiān)控及評估,都由起源數(shù)據(jù)治理平臺自動完成,所有信息的變動都會自動周知對應(yīng)的負責(zé)人,保證數(shù)據(jù)應(yīng)用的安全和穩(wěn)定。 (2)實操元數(shù)據(jù)管理 元數(shù)據(jù)信息宏觀上包括兩大部分:業(yè)務(wù)元數(shù)據(jù)信息和數(shù)據(jù)元數(shù)據(jù)信息。
起源平臺為了實現(xiàn)元數(shù)據(jù)信息的管理,設(shè)計了四個模塊實現(xiàn),分別是:數(shù)據(jù)表管理模塊、模型管理模塊、指標管理模塊、維度管理模塊。元數(shù)據(jù)管理是起源數(shù)據(jù)治理平臺的核心,起源平臺就是通過控制好元數(shù)據(jù),來驅(qū)動數(shù)據(jù)的生產(chǎn)和消費。 (3)實操數(shù)據(jù)表管理模塊 數(shù)據(jù)表管理模塊管理了數(shù)據(jù)庫信息和數(shù)據(jù)表信息,其中數(shù)據(jù)庫信息包括數(shù)據(jù)庫鏈接信息,數(shù)據(jù)庫信息維護后,起源數(shù)據(jù)治理平臺自動獲取對應(yīng)庫中表的元數(shù)據(jù)信息。 數(shù)據(jù)表信息包括:表的元數(shù)據(jù)信息(引擎、字段等)、表類型(維表或事實表)、表的使用情況(是否被模型使用)、表對應(yīng)的ETL、表的負責(zé)人、表的推薦度、描述信息、表的監(jiān)控配置及報警歷史、以及樣例數(shù)據(jù)等。上述這些信息為業(yè)務(wù)用戶提供指導(dǎo),為模型管理提供數(shù)據(jù)支持,為數(shù)據(jù)表和數(shù)據(jù)的穩(wěn)定提供監(jiān)控和預(yù)警。 (4)實操維度管理模塊 維度管理模塊包括基礎(chǔ)信息和技術(shù)信息,對應(yīng)著不同人員維護。其中基礎(chǔ)信息對應(yīng)維度的業(yè)務(wù)信息,由業(yè)務(wù)管理人員維護,包括維度名稱、業(yè)務(wù)定義、業(yè)務(wù)分類。技術(shù)信息對應(yīng)維度的數(shù)據(jù)信息,由數(shù)據(jù)開發(fā)工程師維護,包括是否有維表(是枚舉維度還是有獨立的維表)、是否是日期維、對應(yīng)code英文名稱和中文名稱、對應(yīng)name英文名稱和中文名稱。 如果維度有維表,則需要和對應(yīng)的維度表綁定,設(shè)置code和name對應(yīng)的字段;如果維度是枚舉維,則需要填寫對應(yīng)的code和name。維度的統(tǒng)一管理,有利于以后數(shù)據(jù)表的標準化,也方便用戶的查看。 (5)指標管理模塊 指標管理模塊核心包括基礎(chǔ)信息和技術(shù)信息管理,衍生信息包括關(guān)聯(lián)指標、關(guān)聯(lián)應(yīng)用管理?;A(chǔ)信息對應(yīng)的就是指標的業(yè)務(wù)信息,由業(yè)務(wù)人員填寫,主要包括指標名稱、業(yè)務(wù)分類、統(tǒng)計頻率、精度、單位、指標類型、指標定義、計算邏輯、分析方法、影響因素、分析維度等信息;基礎(chǔ)信息中還有一個比較重要的部分是監(jiān)控配置,主要是配置指標的有效波動范圍區(qū)間、同環(huán)比波動區(qū)間等,監(jiān)控指標數(shù)據(jù)的正常運行。 技術(shù)信息構(gòu)成比較復(fù)雜,包括數(shù)據(jù)類型、指標代碼,但是核心部分是指標與模型的綁定關(guān)系,通過使用演進形成了當(dāng)前系統(tǒng)兩類綁定關(guān)系:綁定物理模型和構(gòu)建虛擬模型。
從以上實操來看,產(chǎn)品、運營、技術(shù)、業(yè)務(wù)人員是相互配合完成數(shù)據(jù)中臺的實操,當(dāng)然了在這里如果某一個崗位人員的技能和經(jīng)驗豐富一些,不排除以人身兼多職的可能。更多相關(guān)實操知識點可以參考筆者的書籍《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。 四、數(shù)據(jù)中臺會成為下一個風(fēng)口嗎?數(shù)據(jù)中臺會不會成為下一個風(fēng)口,首先筆者本人不贊成風(fēng)口輪,更支持一個事物長期的價格是由其本質(zhì)的價值決定的觀點。其次目前的數(shù)據(jù)中臺從產(chǎn)品上看是融合了各種數(shù)據(jù)源,經(jīng)過ETL技術(shù)處理供給給有限的純商業(yè)變現(xiàn)目的。再則數(shù)據(jù)中臺的各個技術(shù)模塊日趨成熟,稀缺的是數(shù)據(jù)的吸取和數(shù)據(jù)的資產(chǎn)變現(xiàn)模式。 所以,一方面看數(shù)據(jù)中臺是剛剛興起,這股興起即使是技術(shù)團隊也是興起不久,例如:筆者早些時候在一所名校的CS技術(shù)群里討論過數(shù)據(jù)中臺,然后再過一段時間是產(chǎn)品開始討論,然后就會是運營討論,隨后市場銷售也會跟上。 下圖為筆者早期在技術(shù)群里討論數(shù)據(jù)中臺技術(shù)圖: 數(shù)據(jù)中臺的技術(shù)有原來的,也有創(chuàng)新的,但是整體比較成熟,剩下的是在業(yè)務(wù)切入方式上,例如:架構(gòu)齊全,但是數(shù)據(jù)值缺失、數(shù)據(jù)孤島等等情況才是現(xiàn)實問題。不論數(shù)據(jù)中臺是不是下一個風(fēng)口,數(shù)據(jù)中臺的產(chǎn)品都將運行下去,尤其是數(shù)據(jù)中臺的思維理念是:“數(shù)據(jù)共享”。這樣美好的理念值得人人都需要一個數(shù)據(jù)中臺。 五、數(shù)據(jù)中臺與AI中臺AI 中臺是一個用來構(gòu)建大規(guī)模智能服務(wù)的基礎(chǔ)設(shè)施,對企業(yè)需要的算法模型提供了分步構(gòu)建和全生命周期管理的服務(wù),讓企業(yè)可以將自己的業(yè)務(wù)不斷下沉為一個個算法模型,以達到復(fù)用、組合創(chuàng)新、規(guī)?;瘶?gòu)建智能服務(wù)的目的。 從數(shù)據(jù)中臺演進到 AI 中臺! 從 AI 中臺落地實施的方式來看,AI 中臺可以是數(shù)據(jù)中臺的進一步延伸,從數(shù)據(jù)中臺一步一步演進過去。 首先,從基礎(chǔ)設(shè)施角度,可以將數(shù)據(jù)中臺智能化所謂的智能化,是指將在數(shù)據(jù)中臺進行的一系列的數(shù)據(jù)服務(wù)構(gòu)建操作進行智能化實現(xiàn),讓數(shù)據(jù)的接入、存儲、分析展現(xiàn)、訓(xùn)練、到構(gòu)建管道(pipeline)都更加自動化。 例如:對于通用的 CI/CD 來說,測試不過則會構(gòu)建失敗,那對于 AI 中臺下,就要考慮一個推薦模型構(gòu)建失敗的條件是什么? 答案可能是“本次模型的準確率低于上一次構(gòu)建的準確率”的時候,CI 應(yīng)該被構(gòu)建失敗。 在實踐中,這可能是 CI 構(gòu)建過程的維度之一,還會有很多其他指標和維度。我們就需要在現(xiàn)有的數(shù)據(jù)平臺的 CI 中,實現(xiàn)并自動化這些指標和維度,使之更加智能化。更多AI應(yīng)用案例可見筆者新書《AI賦能:AI重新定義產(chǎn)品經(jīng)理》。 其次,對于我們可想而知數(shù)據(jù)中臺使從來不是目的,數(shù)據(jù)中臺的目的是將數(shù)據(jù)變成數(shù)字資產(chǎn)。這種資產(chǎn)如果僅僅用來租賃,肯定不如智能的應(yīng)用價值更高,這也是從數(shù)據(jù)中臺到AI中臺的第二點原因。 第三、目前的數(shù)據(jù)中臺的終端應(yīng)用以直接2C以產(chǎn)生剛性的訂單為主。而我們并不確定這個推薦是否由數(shù)據(jù)中臺的引擎發(fā)揮了人性的作用,而智能應(yīng)用層直接面向終端,怎么利用元數(shù)據(jù)等功能,組合各自不同模型提供的服務(wù),構(gòu)建出組合效應(yīng)的創(chuàng)新服務(wù)才能更懂用戶的人性。 總結(jié)不論數(shù)據(jù)中臺會不會是下一個風(fēng)口!不論業(yè)務(wù)、運營、技術(shù)和產(chǎn)品,如何討論的中臺多么熱門,也不用管多少大佬提及過。你只需要懂中臺中該掌握的思維、技術(shù)、實操。然后明白我們開頭的那句話:拿著舊地圖是不可能找到新大陸的!你就能做出智能中臺。 下次繼續(xù)分享智能中臺實操案例。 #專欄作家#連詩路,公眾號:LineLian。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進化論:AI 時代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。 題圖來自Unsplash, 基于CC0協(xié)議 |
|
來自: 工農(nóng)子弟兵 > 《文件夾1》