數(shù)據(jù)是企業(yè)最具價值的資產(chǎn)之一,而數(shù)據(jù)質(zhì)量則直接影響數(shù)據(jù)的產(chǎn)出和數(shù)據(jù)價值的高低。因此,數(shù)據(jù)質(zhì)量的管理對于企業(yè)決策、戰(zhàn)略水平和業(yè)績提升至關重要。今天我們就來聊一聊企業(yè)如何評估和提升數(shù)據(jù)質(zhì)量。 一、數(shù)據(jù)質(zhì)量是什么 國際數(shù)據(jù)管理協(xié)會的《數(shù)據(jù)管理知識手冊》中規(guī)定:數(shù)據(jù)質(zhì)量(DQ)是“既指與數(shù)據(jù)有關的特征,也指用于衡量或改進數(shù)據(jù)質(zhì)量的過程。” 具體可以從以下幾個方面來定義數(shù)據(jù)質(zhì)量: ● 從用戶層級定義數(shù)據(jù)質(zhì)量:即滿足特定用戶預期需要的程度 ● 從數(shù)據(jù)本身定義數(shù)據(jù)質(zhì)量:即從數(shù)據(jù)質(zhì)量的指示器和參數(shù)指標等方面來衡量 ● 從數(shù)據(jù)約束關系定義數(shù)據(jù)質(zhì)量:即從數(shù)據(jù)的原子性、數(shù)據(jù)的關聯(lián)性及對數(shù)據(jù)的約束規(guī)則來度量數(shù)據(jù)質(zhì)量 ● 從數(shù)據(jù)過程定義數(shù)據(jù)質(zhì)量:即從數(shù)據(jù)能被正確使用、存儲、傳輸?shù)确矫娑x質(zhì)量 二、數(shù)據(jù)質(zhì)量問題有哪些危害 當前越來越多的企業(yè)認識到了數(shù)據(jù)的重要性,但數(shù)據(jù)是一把雙刃劍,它能給企業(yè)帶來業(yè)務價值的同時也是企業(yè)最大的風險來源。據(jù)IBM統(tǒng)計: ● 錯誤或不完整數(shù)據(jù)導致BI和CRM系統(tǒng)不能正常發(fā)揮優(yōu)勢甚至失效 ● 數(shù)據(jù)分析員每天有30%的時間浪費在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上 ● 低劣的數(shù)據(jù)質(zhì)量嚴重降低了全球企業(yè)的年收入 由此可見,低質(zhì)量的數(shù)據(jù)將直接導致分析結果的不準確,從而為業(yè)務發(fā)展和企業(yè)決策帶來嚴重影響。 三、影響數(shù)據(jù)質(zhì)量的因素 數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因有很多方面,比如在技術、管理、流程方面都會碰到。一般情況下,企業(yè)都有多套的業(yè)務系統(tǒng),這些業(yè)務在不同時期由不同的團隊開發(fā)完成。因此,這些業(yè)務系統(tǒng)都參考著不同的標準生產(chǎn)各自數(shù)據(jù)。濫用縮寫詞、慣用語,數(shù)據(jù)輸入錯誤,重復記錄,丟失值,拼寫變化,不同計量單位的使用等導致系統(tǒng)產(chǎn)生了大量的臟數(shù)據(jù)。這就是數(shù)據(jù)質(zhì)量問題的由來。 影響數(shù)據(jù)質(zhì)量的主要因素有: 1、管理因素 是指由于人員素質(zhì)及管理機制方面的原因造成的數(shù)據(jù)質(zhì)量問題。表現(xiàn)為:數(shù)據(jù)來源渠道多,責任不明確;業(yè)務需求不清晰,數(shù)據(jù)填報缺失;數(shù)據(jù)指標不統(tǒng)一等。 2、技術因素 主要是指由于具體數(shù)據(jù)處理的各技術環(huán)節(jié)異常造成的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量問題的產(chǎn)生主要來源于數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用、數(shù)據(jù)維護等環(huán)節(jié)。 3、流程因素 是指由于系統(tǒng)作業(yè)流程和人工操作流程設置不當而造成的數(shù)據(jù)質(zhì)量問題。其實,流程因素也屬于企業(yè)管理范疇。 很多企業(yè)認識不到數(shù)據(jù)質(zhì)量問題的根本原因,只從技術單方面來解決數(shù)據(jù)問題,沒有形成管理機制,導致效果大打折扣。所以,要改進數(shù)據(jù)質(zhì)量問題,要從企業(yè)管理和技術兩方面入手,才能從根本上,最佳地解決數(shù)據(jù)質(zhì)量問題。 四、數(shù)據(jù)質(zhì)量標準 數(shù)據(jù)質(zhì)量通常具有以下維度: 1、完整性 完整性指的是數(shù)據(jù)信息是否存在缺失,數(shù)據(jù)缺失可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質(zhì)量更為基礎的一項評估標準。 數(shù)據(jù)質(zhì)量的完整性比較容易去評估,一般我們可以通過數(shù)據(jù)統(tǒng)計中的記錄值和值進行評估。例如,網(wǎng)站日志日訪問量就是一個記錄值,平時的日訪問量在 1000 左右,突然某一天降到100了,需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計地域分布情況的每一個地區(qū)名就是一個值,我國包括了32個省和直轄 市,如果統(tǒng)計得到的值小于32,則可以判斷數(shù)據(jù)有可能存在缺失。 2、一致性 一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。 數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。規(guī)范指的是,一項數(shù)據(jù)存在特定的格式,例如手機號碼一定是13位的數(shù)字,IP地址一定 是由 4個0到255間的數(shù)字加上”.”組成的。邏輯指的是,多項數(shù)據(jù)間存在著固定的邏輯關系,例如PV一定是大于等于UV的,跳出率一定是在0到1之間的。 一般的數(shù)據(jù)都有著標準的編碼規(guī)則,對于數(shù)據(jù)記錄的一致性檢驗是較為簡單的,只要符合標準編碼規(guī)則即可,例如地區(qū)類的標準編碼格式為“北京”而不是“北京市”,我們只需將相應的值映射到標準的值上就可以了。 3、準確性 準確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤。和一致性不一樣,存在準確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。更為常見的數(shù)據(jù)準確性錯誤就如亂碼。其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。 數(shù)據(jù)質(zhì)量的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集,例如數(shù)量級記錄錯誤。這類錯誤則可以使用較大值和最小值的統(tǒng)計量去審核。 一般數(shù)據(jù)都符合正態(tài)分布的規(guī)律,如果一些占比少的數(shù)據(jù)存在問題,則可以通過比較其他數(shù)量少的數(shù)據(jù)比例,來做出判斷。 當然如果統(tǒng)計的數(shù)據(jù)異常并不顯著,但依然存在著錯誤,這類值的檢查是更為困難的,需要通過復雜的統(tǒng)計分析對比找到蛛絲馬跡,這里可以借助一些數(shù)據(jù)分析工具,那么具體的數(shù)據(jù)修正方法就不在這里介紹了。 4、及時性 及時性是指數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。及時性對于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。 五、數(shù)據(jù)質(zhì)量評估 評估步驟如下: ● 確定需要做數(shù)據(jù)質(zhì)量監(jiān)控的數(shù)據(jù)指標項,通常會對數(shù)據(jù)運營和相關管理報告至關重要的數(shù)據(jù)項。 ● 評估需要使用的數(shù)據(jù)質(zhì)量維度及其權重值。 ● 對于每個數(shù)據(jù)質(zhì)量維度,定義表示標準質(zhì)量和質(zhì)量差數(shù)據(jù)的值和范圍。特別需要注意的是:同一個指標名稱,可能會有不同的度量規(guī)則,因此需要執(zhí)行許多不同的數(shù)據(jù)質(zhì)量評估。 ● 反復查看并確認數(shù)據(jù)質(zhì)量是否可以被接受。 ● 在適當數(shù)據(jù)流轉(zhuǎn)中采取糾正措施,例如:清理數(shù)據(jù)并改進數(shù)據(jù)處理流程,以防止問題再次發(fā)生。 ● 定期重復上述步驟,以監(jiān)控數(shù)據(jù)質(zhì)量趨勢。 六、提高數(shù)據(jù)質(zhì)量的方法 1、明確業(yè)務需求并從需求開始控制數(shù)據(jù)質(zhì)量 要想真正解決數(shù)據(jù)質(zhì)量問題,應該從需求開始,企業(yè)往往在定義清楚業(yè)務需求后忽略對數(shù)據(jù)質(zhì)量的控制,而只對已經(jīng)產(chǎn)生的數(shù)據(jù)做檢查,然后再將錯誤數(shù)據(jù)剔除,這種方法治標不治本,不能從根本上解決問題。 企業(yè)需要將數(shù)據(jù)質(zhì)量的控制從需求開始集成到分析人員、模型設計人員與開發(fā)人員的工作環(huán)境中,讓大家在日常的工作環(huán)境中自動控制數(shù)據(jù)質(zhì)量,在數(shù)據(jù)的全生命周期中控制數(shù)據(jù)質(zhì)量。 2、建立數(shù)據(jù)質(zhì)量管理機制 從業(yè)務出發(fā)做問題定義,由工具自動、及時發(fā)現(xiàn)問題,明確問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數(shù)據(jù)質(zhì)量問題全過程的管理。 (1)探查數(shù)據(jù)內(nèi)容、結構和異常 通過探查,可以識別數(shù)據(jù)的優(yōu)勢和弱勢,幫助企業(yè)確定業(yè)務實施計劃。一個關鍵目標就是明確指出數(shù)據(jù)錯誤和問題,例如將會給業(yè)務流程帶來威脅的不一致和冗余。 (2)建立數(shù)據(jù)質(zhì)量度量并明確目標 企業(yè)需建立一個共同的平臺并完善度量標準,用戶可以在數(shù)據(jù)質(zhì)量記分卡中跟蹤度量標準的達標情況,并通過電子郵件發(fā)送URL來與相關人員隨時進行共享。 (3)設計和實施數(shù)據(jù)質(zhì)量業(yè)務規(guī)則 明確企業(yè)的數(shù)據(jù)質(zhì)量規(guī)則,即可重復使用的業(yè)務邏輯,管理如何清洗數(shù)據(jù)和解析用于支持目標應用字段和數(shù)據(jù)。業(yè)務部門和IT部門通過使用基于角色的功能,一同設計、測試、完善和實施數(shù)據(jù)質(zhì)量業(yè)務規(guī)則,以達成最好的結果。 (4)將數(shù)據(jù)質(zhì)量規(guī)則構建到數(shù)據(jù)集成過程中 數(shù)據(jù)質(zhì)量服務由可集中管理、獨立于應用程序并可重復使用的業(yè)務規(guī)則構成,可用來執(zhí)行探查、清洗、標準化、名稱與地址匹配以及監(jiān)測。 在企業(yè)大數(shù)據(jù)治理過程中,對于大數(shù)據(jù)生產(chǎn)線中的每個集成點,都需要做數(shù)據(jù)質(zhì)量的檢查,嚴格控制輸入數(shù)據(jù)的質(zhì)量。比如在數(shù)據(jù)采集過程,集成過程,分析過程等等都需要做檢查。 但在大數(shù)據(jù)環(huán)境中,每個集成點都會有海量數(shù)據(jù)量流過,把數(shù)據(jù)逐條檢查這種傳統(tǒng)方式是行不通的,應該采用抽樣的方式,對一批數(shù)據(jù)做數(shù)據(jù)質(zhì)量的檢查,來確定這批數(shù)據(jù)是否滿足一定的質(zhì)量區(qū)間,再決定是否需要對這批數(shù)據(jù)做詳細的檢查。 (5)檢查異常并完善規(guī)則 在執(zhí)行數(shù)據(jù)質(zhì)量流程后,大多數(shù)記錄將會被清洗和標準化,并達到企業(yè)所設定的數(shù)據(jù)質(zhì)量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質(zhì)數(shù)據(jù),此時則需要完善控制數(shù)據(jù)質(zhì)量的業(yè)務規(guī)則。 目前企業(yè)內(nèi)的數(shù)據(jù)主要分為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù),大數(shù)據(jù)時代到來讓各企業(yè)廣泛采購第三方數(shù)據(jù),第三方數(shù)據(jù)的質(zhì)量逐漸成為決定企業(yè)數(shù)據(jù)質(zhì)量的關鍵因素。 對于企業(yè)的內(nèi)部數(shù)據(jù),可以通過業(yè)務梳理直接獲得質(zhì)量檢核規(guī)則。但是對于外部第三方數(shù)據(jù),需要先對這些數(shù)據(jù)進行采樣,并應用關聯(lián)算法自動發(fā)現(xiàn)其中的質(zhì)量檢核規(guī)則,并將這些檢核規(guī)則持續(xù)積累,形成外部數(shù)據(jù)的檢核規(guī)則庫。 (6)對照目標,監(jiān)測數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量控制不應為一次性的“邊設邊忘”活動。相對目標和在整個業(yè)務應用中持續(xù)監(jiān)測和管理數(shù)據(jù)質(zhì)量對于保持和改進高水平的數(shù)據(jù)質(zhì)量性能而言是至關重要的。可選擇儀表板和報告進行監(jiān)測。 3、對不同數(shù)據(jù)的數(shù)據(jù)問題分類處理 在時間維度上分,企業(yè)數(shù)據(jù)主要有三類:未來數(shù)據(jù)、當前數(shù)據(jù)、歷史數(shù)據(jù)。在解決不同種類的數(shù)據(jù)質(zhì)量問題時,也要采取不同的處理方式。 (1)歷史數(shù)據(jù) 如果你拿著歷史數(shù)據(jù),找業(yè)務部門給你做整改,業(yè)務部門通常以“當前的數(shù)據(jù)問題都處理不過來,哪有時間幫你一起追查歷史數(shù)據(jù)的問題”為理由無情拒絕。這個時候即便是找領導協(xié)調(diào),一般也起不到太大的作用。對于歷史數(shù)據(jù)問題的處理,一般可以發(fā)揮IT技術人員的優(yōu)勢,用數(shù)據(jù)清洗的辦法來解決,清洗的過程要綜合使用各類數(shù)據(jù)源,提升歷史數(shù)據(jù)的質(zhì)量。 (2)當前數(shù)據(jù) 當前數(shù)據(jù)的問題,需要通過從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個方面來解決。 (3)未來數(shù)據(jù) 未來數(shù)據(jù)的處理,一般要采用做數(shù)據(jù)規(guī)劃的方法來解決,從整個企業(yè)信息化的角度出發(fā),規(guī)劃統(tǒng)一企業(yè)數(shù)據(jù)架構,制定企業(yè)數(shù)據(jù)標準和數(shù)據(jù)模型。借業(yè)務系統(tǒng)改造或者重建的時機,來從根本上提高數(shù)據(jù)質(zhì)量。當然這種機會是可遇而不可求的,在機會到來之前應該把企業(yè)數(shù)據(jù)標準和數(shù)據(jù)模型建立起來,一旦機會出現(xiàn),就可以遵循這些標準。 通過對不同時期數(shù)據(jù)的分類處理,做到事前預防、事中監(jiān)控、事后改善,有助于從根源上解決數(shù)據(jù)質(zhì)量問題,為企業(yè)的發(fā)展帶來突破和創(chuàng)新。 隨著互聯(lián)網(wǎng)時代的來臨,企業(yè)面對的數(shù)據(jù)已經(jīng)遠遠不是簡單的業(yè)務數(shù)據(jù),而是來自網(wǎng)絡和各種設備的大量結構化和非結構化數(shù)據(jù)。企業(yè)需要嚴格控制數(shù)據(jù)質(zhì)量才能最終實現(xiàn)數(shù)據(jù)的價值以及業(yè)務的發(fā)展。 -數(shù)據(jù)分析展示就用DataHunter- |
|
來自: blackhappy > 《我的圖書館》