午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

“數(shù)據(jù)質(zhì)量”入門

 weiwarm 2020-04-13
數(shù)據(jù)質(zhì)量理論部分
1.1
相關(guān)概念

【數(shù)據(jù)質(zhì)量】數(shù)據(jù)的一組固有屬性滿足數(shù)據(jù)消費者要求的程度。

1)數(shù)據(jù)固有屬性

  • 真實性:即數(shù)據(jù)是客觀世界的真實反映

  • 及時性:即數(shù)據(jù)是隨著變化及時更新的

  • 相關(guān)性:即數(shù)據(jù)是數(shù)據(jù)消費者關(guān)注和需要的

2)高質(zhì)量數(shù)據(jù)滿足要求(消費者角度)

  • 可得的,當(dāng)數(shù)據(jù)消費者需要時能夠獲取到;

  • 及時的,當(dāng)需要時,數(shù)據(jù)獲得且是及時更新的;

  • 完整的,數(shù)據(jù)是完整沒有遺漏的;

  • 安全的,數(shù)據(jù)是安全的,避免非授權(quán)的訪問和操控;

  • 可理解的,數(shù)據(jù)是可理解和解釋的;

  • 正確的,數(shù)據(jù)是現(xiàn)實世界的真實反映。

【數(shù)據(jù)質(zhì)量管理】

數(shù)據(jù)質(zhì)量管理,是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進一步提高。

1.2
評估維度

任何改善都是建立在評估的基礎(chǔ)上,知道問題在哪才能實施改進。通常數(shù)據(jù)質(zhì)量評估和管理評估需通過以下幾個維度衡量。常見的以下維度:

  • 完整性

完整性,是指數(shù)據(jù)信息是否完整,是否存在缺失情況。數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。記錄的完整性,一般使用統(tǒng)計的記錄數(shù)和唯一值個數(shù)。完整性的另一方面,記錄中某個字段的數(shù)據(jù)缺失,可使用統(tǒng)計信息中的NULL的個數(shù)進行審核。一般空值的占比基本恒定,同樣可以使用統(tǒng)計的空值個數(shù)來計算空值占比,如果空值的占比明顯增大,很可能這個字段的記錄出現(xiàn)了問題,信息出現(xiàn)缺失。總而言之,完整性可用記錄數(shù)、均值、唯一值、空值占比等指標來衡量。

  • 規(guī)范性

規(guī)范性,是指記錄是否符合規(guī)范,是否按照規(guī)定的格式存儲(例如標準編碼規(guī)則)。數(shù)據(jù)規(guī)范性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復(fù)雜的一塊。規(guī)范性檢驗主要是檢驗數(shù)據(jù)和數(shù)據(jù)定義是否一致,因此可以通過合規(guī)記錄的比率來衡量。比如取值范圍是枚舉集合的數(shù)據(jù),其實際值超出范圍之外的數(shù)據(jù)占比,比如存在特定編碼規(guī)則的屬性值不符合其編碼規(guī)則的記錄占比。

  • 一致性

一致性,是指數(shù)據(jù)是否符合邏輯,數(shù)據(jù)內(nèi)單項或多項數(shù)據(jù)間存在邏輯關(guān)系。一致性檢驗,存在邏輯關(guān)系的屬性之間的校驗,比如屬性A取某定值時,屬性B的值應(yīng)該在某個特定的數(shù)據(jù)范圍內(nèi),都可以通過合規(guī)率來衡量。

  • 準確性

準確性,用于度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集上。準確性和規(guī)范性的差別在于規(guī)范性關(guān)注合規(guī),表示統(tǒng)一,而準確性關(guān)注數(shù)據(jù)錯誤。因此,同樣的數(shù)據(jù)表現(xiàn),比如數(shù)據(jù)實際值不在定義的范圍內(nèi),如果定義的范圍準確,值完全沒有意義,那么這屬于數(shù)據(jù)錯誤。數(shù)據(jù)的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集。如果整個數(shù)據(jù)集的某個字段的數(shù)據(jù)存在錯誤,這種錯誤很容易發(fā)現(xiàn),利用平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問題。當(dāng)數(shù)據(jù)集中存在個別的異常值時,可使用最大值和最小值的統(tǒng)計量去審核,或者使用箱線圖也可以讓異常一目了然。還有幾個準確性的審核問題,字符亂碼的問題或者字符被截斷的問題,可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項很可能存在問題。如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值和正常值比較接近而已,這類準確性檢驗最困難,一般只能與其他來源或者統(tǒng)計結(jié)果進行對比來發(fā)現(xiàn)問題。

  • 時效性

數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。某些實時分析和決策需要用到小時或者分鐘級的數(shù)據(jù),這些需求對數(shù)據(jù)的時效性要求極高,所以及時性也是數(shù)據(jù)質(zhì)量的組成要素之一。例如定義某張表在每月最晚達到的日期是幾號。

  • 唯一性

唯一性,用于度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。即對存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段、記錄或數(shù)據(jù)集意外重復(fù)的測量標準。

  • 合理性

合理性,是從業(yè)務(wù)邏輯角度判斷數(shù)據(jù)是否正確。評估方面可參照規(guī)范性、一致性做法。

  • 冗余性

冗余性,是指多層次數(shù)據(jù)中,中是否存在不必要的數(shù)據(jù)冗余。

  • 獲取性

獲取性,是指數(shù)據(jù)是否易于獲取、易于理解和易于使用。

1.3
影響因素

影響數(shù)據(jù)質(zhì)量的因素主要來源于四方面:信息因素、技術(shù)因素、流程因素和管理因素。

  • 信息因素

產(chǎn)生這部分數(shù)據(jù)質(zhì)量問題的原因主要有:元數(shù)據(jù)描述及理解錯誤、數(shù)據(jù)度量的各種性質(zhì)(如:數(shù)據(jù)源規(guī)格不統(tǒng)一)得不到保證和變化頻度不恰當(dāng)?shù)取?/p>

  • 技術(shù)因素

主要是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量問題的產(chǎn)生環(huán)節(jié)主要包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用、數(shù)據(jù)維護等方面的內(nèi)容。

  • 流程因素

是指由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問題,主要來源于系統(tǒng)數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環(huán)節(jié)。

  • 管理因素

是指由于人員素質(zhì)及管理機制方面的原因造成的數(shù)據(jù)質(zhì)量問題。如人員培訓(xùn)、人員管理、培訓(xùn)或者獎懲措施不當(dāng)導(dǎo)致的管理缺失或者管理缺陷。

解決質(zhì)量問題方法

可以遵從下面的十步法原則(此部分摘自御數(shù)坊公開材料)。

1)定義業(yè)務(wù)需求與方法

找出有哪些業(yè)務(wù)受到數(shù)據(jù)質(zhì)量問題的影響,或者由于數(shù)據(jù)質(zhì)量的改進將會為企業(yè)帶來更好的業(yè)務(wù)效益的需求,評估這些業(yè)務(wù)需求并按照重要等級排序,作為本次數(shù)據(jù)質(zhì)量提升的目標與范圍。只有明確了業(yè)務(wù)需求與方法,才能確保要解決的數(shù)據(jù)質(zhì)量問題是與業(yè)務(wù)需求相關(guān)的,從而真正的解決了業(yè)務(wù)問題。

2)分析信息環(huán)境

細化已定義的業(yè)務(wù)需求,識別出業(yè)務(wù)需求與數(shù)據(jù)、數(shù)據(jù)規(guī)范、流程、組織和技術(shù)(如系統(tǒng)、軟件等)之間的關(guān)聯(lián)信息,定義信息生命周期,確定數(shù)據(jù)來源及范圍。通過分析信息環(huán)境,不僅可以為后續(xù)的原因分析提供幫助,也可以使我們對數(shù)據(jù)問題及現(xiàn)狀有一個更全面、直觀的理解與認識。

3)評估數(shù)據(jù)質(zhì)量

從相關(guān)數(shù)據(jù)源提取數(shù)據(jù),圍繞已定義的業(yè)務(wù)需求,設(shè)計數(shù)據(jù)評估維度并利用相關(guān)工具完成評估,將數(shù)據(jù)質(zhì)量評估結(jié)果以圖表或報告形式準確的表達出來,使相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員都能夠清晰的、直觀的了解實際的數(shù)據(jù)質(zhì)量情況,確保數(shù)據(jù)問題是與業(yè)務(wù)需求相關(guān)的,并能夠得到相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員的重視與支持。

4)評估業(yè)務(wù)影響

了解低質(zhì)量數(shù)據(jù)是如何影響業(yè)務(wù)的,為什么這些數(shù)據(jù)很重要,如果改善這些問題會帶來哪些業(yè)務(wù)價值。評估方式的復(fù)雜度越高所花費的時間越長,不過與評估效果卻并不一定成正比,所以在評估業(yè)務(wù)影響時也要注意方法的選擇。另外,要將業(yè)務(wù)影響評估結(jié)果及時歸檔,這樣,隨著時間的推移即便問題被淡化,也能夠有跡可查。

5)確定根本原因

在糾正數(shù)據(jù)問題之前要先確定其根本原因,產(chǎn)生問題的根源有很多。不過,有些問題的發(fā)生僅是表象,并不一定是導(dǎo)致錯誤數(shù)據(jù)的根本原因,所以在分析的過程中,要不斷的去追蹤數(shù)據(jù)進行問題定位,確定問題最早出現(xiàn)的根本原因;或者多問自己幾遍“WHY”以弄清楚問題的根本原因,進而使問題得到有效的解決,達到治標又治本的效果。

6)制定改進方案

通過前面幾步詳細的問題分析及原因確定,在這一步則可以有針對性的制定出合理的數(shù)據(jù)質(zhì)量改進方案,包括對已知數(shù)據(jù)問題的改進建議及如何預(yù)防未來類似錯誤數(shù)據(jù)的發(fā)生。

7)預(yù)防未來數(shù)據(jù)錯誤

根據(jù)解決方案的設(shè)計,預(yù)防未來錯誤數(shù)據(jù)的發(fā)生。

8)糾正當(dāng)前數(shù)據(jù)錯誤

根據(jù)解決方案的設(shè)計,解決現(xiàn)有數(shù)據(jù)問題。這一步更多是”臟活累活”,但對于最終質(zhì)量目標的達成至關(guān)重要。

9)實施控制監(jiān)控

實施持續(xù)的監(jiān)測,確定是否已經(jīng)達到預(yù)期效果。

10)溝通行動和結(jié)果

對結(jié)果和項目進展情況溝通,保證整體項目的持續(xù)推進。

數(shù)據(jù)質(zhì)量產(chǎn)品設(shè)計
3.1
數(shù)據(jù)產(chǎn)品價值

完整檢核標準梳理方法及指標規(guī)則模板。

自動化的檢核處理及問題通知機制,達到無人值守。

提供全面的數(shù)據(jù)分析機制,加速問題解決。

規(guī)范的問題管理流程及制度,精確管理問題每個階段。

完善的質(zhì)量問題解決共享機制,實現(xiàn)數(shù)據(jù)治理的閉環(huán)管理。

3.2
處理問題流程

確定規(guī)則:數(shù)據(jù)質(zhì)量指標

發(fā)現(xiàn)問題:數(shù)據(jù)質(zhì)量檢核

提出問題:質(zhì)量問題告警

解決問題:質(zhì)量問題分析

歸納問題:問題管理流程

3.3
主要功能模塊

1)質(zhì)量評估

提供全方位數(shù)據(jù)質(zhì)量評估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對數(shù)據(jù)進行體檢進而識別和理解數(shù)據(jù)質(zhì)量問題。有評價體系作為參照,需要進行數(shù)據(jù)的采集、分析和監(jiān)控,為數(shù)據(jù)質(zhì)量提供全面可靠的信息。在數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的關(guān)鍵點上設(shè)置采集點,根據(jù)系統(tǒng)對數(shù)據(jù)質(zhì)量的要求,配置相應(yīng)的采集規(guī)則,通過在采集點處進行質(zhì)量數(shù)據(jù)采集并進行統(tǒng)計分析,就可以得到采集點處的數(shù)據(jù)分析報告。

2)檢核執(zhí)行

提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。

3)質(zhì)量監(jiān)控

系統(tǒng)提供報警機制,對檢核規(guī)則或方法進行閥值設(shè)置,對超出閥值的規(guī)則進行不同級別的告警和通知。

4)問題管理

對數(shù)據(jù)問題進行流程處理支持,規(guī)范問題處理機制和步驟,強化問題認證,提升數(shù)據(jù)質(zhì)量。通過質(zhì)量評價體系和質(zhì)量數(shù)據(jù)采集系統(tǒng),可以發(fā)現(xiàn)問題,之后還需要對發(fā)現(xiàn)的問題及時作出反應(yīng),追溯問題原因和形成機制,根據(jù)問題種類采取相應(yīng)的改進措施,并持續(xù)跟蹤驗證改進之后的數(shù)據(jù)質(zhì)量提升效果,形成正反饋,達到數(shù)據(jù)質(zhì)量持續(xù)改良的效果。在源頭建立數(shù)據(jù)標準或接入標準,規(guī)范數(shù)據(jù)定義,在數(shù)據(jù)流轉(zhuǎn)過程中建立監(jiān)控數(shù)據(jù)轉(zhuǎn)換質(zhì)量的流程和體系,盡量做到在哪發(fā)現(xiàn)問題就在哪解決問題,不把問題數(shù)據(jù)帶到后端。

5)質(zhì)量報告

系統(tǒng)提供了豐富的API可進行定制化數(shù)據(jù)質(zhì)量包括開發(fā),另外系統(tǒng)內(nèi)置了常用質(zhì)量報告。

6)質(zhì)量分析

提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產(chǎn)生的根源。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多