介紹 如果您恰好與 IT 有任何關系,那么您很可能沒有聽說過數(shù)據(jù)治理,尤其是近年來,由于數(shù)據(jù)隱私和安全法規(guī)的興起,數(shù)據(jù)治理變得越來越流行。有些人可能稱其為流行語,就像大多數(shù)流行語背后的事物一樣,大多數(shù)人談論它,但并不去做。我們決定花一些時間去了解它到底是什么,以及數(shù)據(jù)工程師在這一切中應該扮演什么角色。然而,我們認為,在開始工程部分之前,我們需要首先了解基礎知識并建立共同基礎,以便進一步構建知識,我們將在本文中嘗試做到這一點。話雖如此,讓我們從我們計劃今天討論的問題和主題開始:
1.什么是數(shù)據(jù)治理 “對數(shù)據(jù)資產(chǎn)管理行使權力、控制和共同決策(規(guī)劃、監(jiān)控和執(zhí)行)。”是 DMBOK 對數(shù)據(jù)治理的官方定義。然而,在調查這一主題時,我們發(fā)現(xiàn)數(shù)據(jù)治理有多種定義,這些定義大多重疊,但有時又不重疊。考慮到我們希望事情簡單易懂,我們認為: 數(shù)據(jù)治理是一套原則和實踐,可確保整個數(shù)據(jù)生命周期的高質量。它是一個實用且可操作的框架,可幫助利益相關者識別和滿足他們的數(shù)據(jù)需求。 總而言之,數(shù)據(jù)治理應該服務于所有利益相關者——組織內需要數(shù)據(jù)的人員(甚至外部,例如如果數(shù)據(jù)在多家公司之間共享),并且它應該適用于任何組織,無論其主要業(yè)務是什么(例如:制造、醫(yī)藥、金融、零售、電信) 話雖如此,當您需要擁有可信、易于獲取、可用、集成且安全的數(shù)據(jù)時,您就會進行數(shù)據(jù)治理。 2.數(shù)據(jù)治理涵蓋哪些內容 您可能想知道這是否是大多數(shù)組織已經(jīng)做的事情,因為誰不確保數(shù)據(jù)的高質量或遵循一些原則呢?事實是,您可能做了一些屬于數(shù)據(jù)治理的事情,尤其是主數(shù)據(jù)管理 (MDM),這是任何與數(shù)據(jù)相關的業(yè)務中的關鍵步驟。然而,數(shù)據(jù)治理的目的是將所有這些事情“置于一個治理框架之下”,以更好地系統(tǒng)化并推動必要的組織或技術變革,這樣所有這些工作就不會白費。其他要素包括風險管理、指標、數(shù)據(jù)質量、政策、流程等,您可以在下圖中看到。 什么不是數(shù)據(jù)治理 現(xiàn)在我們已經(jīng)了解了數(shù)據(jù)治理的基本定義及其涵蓋的內容,最好明確說明數(shù)據(jù)治理不是什么。
3.數(shù)據(jù)治理的目標 J. Ladley 在他的著作《數(shù)據(jù)治理:如何設計、部署和維持有效的數(shù)據(jù)治理計劃》中宣稱,數(shù)據(jù)治理的最終目標是讓它不再是一個獨立的計劃,而是成為業(yè)務核心的一部分。就像財務控制和事件已經(jīng)被視為常規(guī)活動而不是特殊計劃一樣。 雖然這是一個偉大的最終目標,但我們需要找到自己的起點并從那里構建流程。我們需要找到幾個目標,這些目標將突出這些數(shù)據(jù)治理活動需要實現(xiàn)的目標,我們稍后可以將其納入日常流程中。這里我們決定以四個為例。請記住,數(shù)據(jù)治理是一個量身定制的流程,目標雖然非常相似,但可能因業(yè)務和流程而異。 4.為什么要進行數(shù)據(jù)治理 現(xiàn)在,希望您對數(shù)據(jù)治理是什么、不是什么以及數(shù)據(jù)治理為何重要已經(jīng)有了一些基本的了解,但可以用一種簡單易懂的方式總結一下: 數(shù)據(jù)治理的好處 成功實施數(shù)據(jù)治理對公司的好處是巨大的,并且具有復合效應。從更干凈、更精簡的數(shù)據(jù),到數(shù)據(jù)驅動的決策,創(chuàng)造更好的業(yè)務成果。積極的業(yè)務成果在提高公司聲譽方面發(fā)揮著關鍵作用,從而提高公司的整體市場價值。 5.需要多長時間、多少錢 既然我們已經(jīng)了解了數(shù)據(jù)治理的定義和好處,您可能迫不及待地想盡快開始實施其原則。不過,最后要考慮的兩個問題是:實施數(shù)據(jù)治理需要多長時間,成本是多少? 好吧,壞消息是,第一個問題沒有直接的答案,而第二個問題的最簡短答案是“很多”。但是,如果做得好,數(shù)據(jù)治理仍然比支付不實施數(shù)據(jù)治理的后果要便宜。如果從財務損失來看,我們可以說,僅違反 GDPR 的成本就可能高達 2000 萬歐元,占公司全球年營業(yè)額的 4%。 現(xiàn)在,首席財務官,您可能想要拿出計算器,將罰款成本與組建團隊的成本(好消息是您可能已經(jīng)制定了一些舉措)和實施數(shù)據(jù)治理進行比較,但在這樣做之前,請記住泄露機密或敏感數(shù)據(jù)的后果可能遠比表面上看到的嚴重,例如客戶流失或聲譽受損,可能會給您的公司帶來進一步的財務損失。 如果您尚未開始數(shù)據(jù)治理,那么制定計劃是一個不錯的起點。從小處做起,一步一步來,根據(jù)反饋進行改進,并記住數(shù)據(jù)治理是一個持續(xù)和迭代的過程,而不是一次性項目。 有趣的事實 對于那些涉案公司來說,情況并不那么好,但以下是一些知名公司出現(xiàn)問題的例子。
下面我們討論誰進行數(shù)據(jù)治理以及他們如何進行數(shù)據(jù)治理。
6.誰來做數(shù)據(jù)治理 數(shù)據(jù)責任制是數(shù)據(jù)治理的一個關鍵概念。了解這一點有助于我們理解為什么組織中的責任和義務是數(shù)據(jù)治理的關鍵因素。圍繞數(shù)據(jù)治理的組織需要某種層次結構來實現(xiàn)問題解決、監(jiān)控和方向設定,這導致存在各種指定的數(shù)據(jù)治理角色。一些隨處可見的角色(如數(shù)據(jù)所有者或數(shù)據(jù)管理員)將進一步詳細討論,但是,還有更多角色我們不會深入討論,例如數(shù)據(jù)所有者和數(shù)據(jù)管家。 盡管“數(shù)據(jù)治理部門”這個術語聽起來不錯,也很誘人,但它并不存在,也不應該存在。原因是我們希望數(shù)據(jù)治理成為日常業(yè)務運營的一部分,而通過創(chuàng)建專門的團隊,我們面臨著可能的隔離。大多數(shù)時候,數(shù)據(jù)治理組織是一個由業(yè)務和 IT 人員組成的虛擬組織。我們在這里需要強調的是,擔任數(shù)據(jù)治理角色的員工之間需要溝通。請注意,我們這里沒有涵蓋完整的數(shù)據(jù)治理角色層次結構,因此我們不會討論數(shù)據(jù)治理委員會、辦公室或數(shù)據(jù)管理之類的事情,但請注意,它們確實存在。 數(shù)據(jù)所有者 簡而言之,數(shù)據(jù)所有者是組織內負責定義數(shù)據(jù)集質量的人員(通常是高級人員)。他們應確保有既定的定義以及針對數(shù)據(jù)質量問題采取的措施。他們還負責制定數(shù)據(jù)質量報告。數(shù)據(jù)所有者應該能夠填寫或更新數(shù)據(jù)中的值。為此,他們需要詳細了解數(shù)據(jù),并能夠訪問當前正確的值,即使這意味著有時需要聯(lián)系客戶或進行深入調查。 建議數(shù)據(jù)所有者擔任組織中的高級員工的原因是他們的權威。然而,這種資歷水平通常意味著他們不太可能有時間參與與數(shù)據(jù)質量相關的日常活動。因此,他們可以得到數(shù)據(jù)管理員和數(shù)據(jù)質量經(jīng)理的支持。 數(shù)據(jù)管理員 數(shù)據(jù)管理員負責制定政策、實施政策并執(zhí)行政策,以及每天糾正數(shù)據(jù)質量問題,因為數(shù)據(jù)所有者沒有時間。數(shù)據(jù)管理員不需要親自負責所有工作(即數(shù)據(jù)工程師幫助實現(xiàn)自動化),但他們應該為其他人提供建議。數(shù)據(jù)管理是任何數(shù)據(jù)治理計劃的關鍵部分,需要流程、技術和人員的正確組合才能有效。 那么,數(shù)據(jù)所有者和數(shù)據(jù)管理員之間有什么區(qū)別呢?嗯,如上所述,數(shù)據(jù)所有者將承擔數(shù)據(jù)集的整體所有權,但他們沒有時間定期參與保持數(shù)據(jù)清潔的具體活動。 另一方面,數(shù)據(jù)管理員將深度參與如何實現(xiàn)所設定的數(shù)據(jù)目標的具體細節(jié),但他們需要咨詢數(shù)據(jù)所有者以了解具體細節(jié)。 數(shù)據(jù)生產(chǎn)者 數(shù)據(jù)生產(chǎn)者是創(chuàng)建、更新或刪除數(shù)據(jù)的任何人(也可以是部門或個人)。通常,他們應確保源系統(tǒng)中的數(shù)據(jù)質量(即確保沒有不該有的空白字段)。 數(shù)據(jù)消費者 數(shù)據(jù)消費者是任何使用數(shù)據(jù)的人,無論是原始數(shù)據(jù)、豐富數(shù)據(jù)還是以報告形式提供的數(shù)據(jù)。然后,數(shù)據(jù)消費者使用這些數(shù)據(jù)進行規(guī)劃或決策,并創(chuàng)建機器學習算法等。如果數(shù)據(jù)質量不佳,消費者應該知道該聯(lián)系誰。 7.如何進行數(shù)據(jù)治理 整個過程自然始于對希望實施數(shù)據(jù)治理的組織的成熟度的評估,然后為整個組織提供清晰的愿景(包括指標等)。在下一步中,我們將映射業(yè)務和財務價值。完成這部分后,我們可以開始功能設計,其結果是政策、原則和流程設計。之后,我們可以創(chuàng)建一個治理框架設計,將前面步驟中的功能設計放入具有完整角色的組織框架中,等等。只有這樣,我們才能進入路線圖步驟,規(guī)劃數(shù)據(jù)治理的細節(jié)(基本上就是我們如何從數(shù)據(jù)集的非治理狀態(tài)轉變?yōu)橹卫頎顟B(tài))。 除此之外,這里有一張生動的圖片,展示了我們如何看待這個過程。請記住,數(shù)據(jù)治理是一個循環(huán)過程,因此在推出后,我們可以回到原點來調整我們的流程。在這張圖片中,你可以看到一些可以在特定步驟中使用的工具(如 RACI 模型或調查),以及每個階段的結果(或一開始的顧慮)。這張圖片可能很亂,但它引發(fā)了很多笑聲,所以當我們在公司談論數(shù)據(jù)治理時,這是一個很好的話題。?? 8.有沒有什么數(shù)據(jù)治理的工具 有工具可以支持數(shù)據(jù)治理的某些部分,但說白了,沒有工具可以支持整個數(shù)據(jù)治理流程。 舉幾個例子,有用于數(shù)據(jù)集成的 Apache Gobblin、用于主數(shù)據(jù)管理 (MDM) 的 Informatica MDM 或 Profisee Platform,以及 Alation 或 Lumada (Waterline) Data Catalog 等數(shù)據(jù)目錄。根據(jù)我們的經(jīng)驗,這些工具通常非常昂貴,并不總是用戶友好的,最重要的是,它們不能滿足數(shù)據(jù)治理的所有需求。以數(shù)據(jù)目錄工具為例 - 它們可以輕松地將數(shù)據(jù)的元數(shù)據(jù)集中到一個地方(表名、模式、屬性、描述),甚至可以提供最新的數(shù)據(jù)樣本,但最終還是由數(shù)據(jù)所有者或管理員來解釋數(shù)據(jù)、識別和管理機密屬性,并完成所有其他工作,使組織中的其他人可以輕松訪問和使用數(shù)據(jù)。 在建立數(shù)據(jù)治理流程時經(jīng)常使用的還有不同的工具或模型,如調查、SWOT(優(yōu)勢、劣勢、機會、威脅)分析、RACI(責任分配矩陣)模型,以及我們認為可以幫助我們處理數(shù)據(jù)治理的任何其他東西。 數(shù)據(jù)治理并非易事,其中的關鍵要素是人。歸根結底,數(shù)據(jù)的生產(chǎn)者、使用者和分析者都是人。數(shù)據(jù)治理就是當您必須擁有可信任、易于獲取、可用、集成和安全的數(shù)據(jù)時所做的事情。實現(xiàn)所有這些的關鍵組件很少,我們將在下面介紹它們。 9.數(shù)據(jù)質量 數(shù)據(jù)質量描述的是數(shù)據(jù)的準確性、完整性和一致性。它是數(shù)據(jù)的準確性、完整性、及時性以及與所有要求和業(yè)務規(guī)則一致的程度。 為什么? 如下圖所示,數(shù)據(jù)質量是信息本身質量的基石,信息可以轉化為知識,幫助制定高質量的決策。這些知識可以產(chǎn)生“智慧”,也就是良好的業(yè)務成果。另一方面,糟糕的數(shù)據(jù)質量可能導致錯誤或有風險的業(yè)務決策、錯失機會和財務損失。 數(shù)據(jù)質量是組織實現(xiàn)數(shù)據(jù)驅動的關鍵因素,但數(shù)據(jù)質量意味著什么呢?從消費者到企業(yè)的角度,這個問題有多種答案。我們將在此提到兩個最常見的答案。 第一個定義表明,如果數(shù)據(jù)正確地代表了它所描述的現(xiàn)實世界實體,那么它就是高質量的。第二個定義表明,如果數(shù)據(jù)適合預期的使用目的,那么它就是高質量的。這些定義以及其他定義經(jīng)常會導致我們組織中不同方之間的分歧。在這種情況下,我們使用數(shù)據(jù)治理來幫助他們就定義和標準達成一致。 評估數(shù)據(jù)質量 為了幫助您評估數(shù)據(jù)是否高質量,這里列出了您應該能夠回答的有關數(shù)據(jù)的 6 個屬性和問題。 10.主數(shù)據(jù)管理 (MDM) 首先讓我們解釋一下什么是主數(shù)據(jù)。主數(shù)據(jù)是一組統(tǒng)一的標識符和屬性,用于描述企業(yè)的核心元素,如客戶、員工、供應商、站點、層次結構等等。其目的是創(chuàng)建一個“黃金副本”,也可以稱為“黃金記錄”。它是關鍵數(shù)據(jù)主體(即客戶)的唯一真實來源,該元素的所有其他用途都必須符合該中央副本或黃金副本的規(guī)定。 什么是 MDM Gartner有一個很好的定義:“主數(shù)據(jù)管理 (MDM) 是一門技術支持的學科,業(yè)務部門和 IT 部門共同努力,確保企業(yè)官方共享主數(shù)據(jù)資產(chǎn)的統(tǒng)一性、準確性、管理、語義一致性和可追溯性?!睋Q句話說,MDM 確保整個組織的數(shù)據(jù)是最新的,并且具有相同的值。我們喜歡 Gartner 的定義,因為它強調了所有 3 個關鍵領域——這是我們工程師對數(shù)據(jù)所做的工作,不是手動的,而是借助技術的幫助,基于業(yè)務部門的輸入,而不是我們自己。數(shù)據(jù)工程師可以設計這些系統(tǒng),但可能對來源或業(yè)務邏輯不夠了解,無法確定哪一個應該作為主要系統(tǒng)以及在哪種情況下。 為什么 每個企業(yè)在日常工作中都會使用多個應用程序和系統(tǒng)(即 ERP、CRM 等)。理想情況下,每個應用程序或系統(tǒng)都用于執(zhí)行其特定的任務,但通常情況下,有多個系統(tǒng)用于同一目的,這通常是由于歷史原因,例如公司收購或合并,或當?shù)卣畬θ蚬镜南拗频?。這意味著同一個實體實例可以在多個地方具有相同的屬性,或者在各處分散不同的數(shù)據(jù)(例如,員工也是客戶),并且并非所有系統(tǒng)中的所有數(shù)據(jù)都是最新的。這可能會導致重大錯誤,例如傳播不正確的值,甚至會對客戶和我們的業(yè)務產(chǎn)生影響。一個基本的例子是多次向同一個客戶發(fā)送相同的營銷電子郵件或消息,將某件商品顯示為有貨但實際上沒有,反之亦然——當商品放在某個貨架上時,卻顯示為已售出/缺貨。數(shù)據(jù)分散、重復或過時也意味著無法獲得基本的 KPI 或衡量標準,或者很難獲得。我們正在討論回答諸如“我們有多少客戶?”或“我們銷售了多少件產(chǎn)品?”這樣的問題。通過為至少一些實體(客戶)實施 MDM,我們可以降低出錯風險并提高數(shù)據(jù)質量。 11.數(shù)據(jù)目錄 數(shù)據(jù)目錄是組織內數(shù)據(jù)資產(chǎn)的有組織清單。它是一種單一的協(xié)作解決方案,可幫助數(shù)據(jù)專業(yè)人員收集、組織、訪問和豐富元數(shù)據(jù),以支持自助式數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)治理。我們想進一步強調兩個關鍵詞。第一個是協(xié)作,因為它強調不同業(yè)務領域和組織需要共同努力整理和解釋數(shù)據(jù)(數(shù)據(jù)管理員),并支持這種協(xié)作(數(shù)據(jù)工程師)。第二個是自助服務,它告訴我們,數(shù)據(jù)應該以這樣的方式記錄下來,即組織中的任何人都知道在哪里可以找到它以及如何使用它。 數(shù)據(jù)目錄使用元數(shù)據(jù)幫助組織管理其數(shù)據(jù)。元數(shù)據(jù)是“關于數(shù)據(jù)的數(shù)據(jù)”——它定義數(shù)據(jù)對象的內容并告訴我們“真實”數(shù)據(jù)在哪里以及它意味著什么。 為什么 簡而言之,當組織擁有大量數(shù)據(jù)時,數(shù)據(jù)目錄應該可以幫助您找到數(shù)據(jù)。這聽起來很簡單,但在大型組織中,您可能無法找到數(shù)據(jù)甚至數(shù)據(jù)所有者,這是一個嚴重的問題。它可以幫助您了解您擁有哪種數(shù)據(jù)、誰在移動它、它用于什么以及如何保護它或訪問數(shù)據(jù)。此外,它使您能夠遵守不同的政策,如 個人信息保護法、GDPR、HIPPA 等。此外,您可以避免在數(shù)據(jù)周圍放置太多層,使其難以使用,從而使其變得毫無用處。 數(shù)據(jù)目錄可以看作是公共圖書館的圖書目錄。當您去圖書館并需要查找一本書時,您可以使用目錄來發(fā)現(xiàn)所需的所有信息,以決定是否需要它以及如何找到它(元數(shù)據(jù))。此目錄通常涵蓋所有連接的圖書館 - 因此您可以找到城市中擁有您要查找的書籍副本的每個圖書館,并且可以找到有關每本書的所有詳細信息。 12.數(shù)據(jù)標簽 數(shù)據(jù)標簽為用戶提供了對數(shù)據(jù)進行分類的能力,這些數(shù)據(jù)反映了與隱私相關的考慮和預定條件,以符合法規(guī)和公司政策。 為什么? 數(shù)據(jù)標簽允許您根據(jù)適用于數(shù)據(jù)的使用政策對數(shù)據(jù)集和屬性進行分類。標簽可以隨時應用,為您選擇如何管理數(shù)據(jù)提供靈活性,但最好的方法是在數(shù)據(jù)到達后立即標記。標簽主要用于醫(yī)療目的數(shù)據(jù)(HIPPA)、隱私政策(GDPR)、信用卡交易(PCI DSS)和研究數(shù)據(jù)集,例如與 COVID-19 相關的數(shù)據(jù)。 13.數(shù)據(jù)沿襲 數(shù)據(jù)沿襲是數(shù)據(jù)隨時間的變化過程,從創(chuàng)建數(shù)據(jù)的來源,經(jīng)過轉換,到最終目的地。簡而言之,數(shù)據(jù)沿襲就是始終準確地知道數(shù)據(jù)從哪里來,到哪里去。 為什么 數(shù)據(jù)沿襲通過將錯誤追溯到數(shù)據(jù)分析過程中的根本原因來提供可見性。它還使您能夠重新執(zhí)行數(shù)據(jù)流的特定部分以進行逐步調試或重新生成丟失的輸出。它通常使用可視化表示來發(fā)現(xiàn)數(shù)據(jù)流或正在經(jīng)歷的各種更改、拆分或任何其他轉換(如參數(shù)更改)。 數(shù)據(jù)沿襲并不是一個新概念。在某種程度上,它已經(jīng)存在于使用 Informatica 等自文檔化工具的舊數(shù)據(jù)倉庫中。此外,另一個大問題是視覺表現(xiàn)部分。從理論上講,它看起來很棒,但實際上……好吧,看看圖片: 就像之前討論的其他主題一樣,理論上數(shù)據(jù)沿襲是一個簡單而直接的前向過程,但現(xiàn)實情況卻有所不同。有一些工具可以幫助我們做到這一點,但真正的問題是,它們能為我們做多少?根據(jù)我們的經(jīng)驗,IT 和業(yè)務人員之間的密切溝通始終比工具更重要。 小結 即使是最大的旅程也始于邁出第一小步,因此我們建議只選擇幾個需要處理的領域并從那里開始。 |
|
來自: 數(shù)據(jù)治理精英館 > 《待分類》