數(shù)據(jù)質(zhì)量與數(shù)據(jù)質(zhì)量八個(gè)維度指標(biāo) 數(shù)據(jù)的質(zhì)量直接影響著數(shù)據(jù)的價(jià)值,并且直接影響著數(shù)據(jù)分析的結(jié)果以及我們以此做出的決策的質(zhì)量。質(zhì)量不高的數(shù)據(jù)不僅僅是數(shù)據(jù)本身的問(wèn)題,還會(huì)影響著企業(yè)經(jīng)營(yíng)管理決策;錯(cuò)誤的數(shù)據(jù)還不如沒(méi)有數(shù)據(jù),因?yàn)闆](méi)有數(shù)據(jù)時(shí),我們還會(huì)基于經(jīng)驗(yàn)和基于常識(shí)的判斷來(lái)做出不見(jiàn)得是錯(cuò)誤的決策,而錯(cuò)誤的數(shù)據(jù)會(huì)引導(dǎo)我們做出錯(cuò)誤的決策。因此數(shù)據(jù)質(zhì)量是企業(yè)經(jīng)營(yíng)管理數(shù)據(jù)治理的關(guān)鍵所在。 數(shù)據(jù)的質(zhì)量可以從八個(gè)方面進(jìn)行衡量,每個(gè)維度都從一個(gè)側(cè)面來(lái)反映數(shù)據(jù)的品相。八個(gè)維度分別是:準(zhǔn)確性、真實(shí)性、完整性、全面性、及時(shí)性、即時(shí)性、精確性和關(guān)聯(lián)性。 我們?cè)诒容^兩個(gè)數(shù)據(jù)集的品相的時(shí)候往往采用這種圖形表示。比如說(shuō),常規(guī)來(lái)講內(nèi)部數(shù)據(jù)采集的準(zhǔn)確性、真實(shí)性、完整性高,而全面性、及時(shí)性、即時(shí)性、精確性和關(guān)聯(lián)性方面取決于企業(yè)內(nèi)部對(duì)數(shù)據(jù)的重視程度以及采用的技術(shù)手段的先進(jìn)性有關(guān);外部數(shù)據(jù)集,比如說(shuō)微博數(shù)據(jù)、互聯(lián)網(wǎng)媒體數(shù)據(jù)等,其全面性、及時(shí)性和即時(shí)性都可以通過(guò)技術(shù)手段,如網(wǎng)絡(luò)爬蟲(chóng)等得到提高,但在準(zhǔn)確性、真實(shí)性、精確性上難以保證,也難以控制,在關(guān)聯(lián)性方面取決于數(shù)據(jù)采集和挖掘的相關(guān)技術(shù)。 我們也可以用這個(gè)模型來(lái)衡量公司內(nèi)部各個(gè)職能部門數(shù)據(jù)的品相。下圖是個(gè)示意,通過(guò)數(shù)據(jù)質(zhì)量8大指標(biāo)的評(píng)價(jià),我們可以對(duì)企業(yè)內(nèi)部數(shù)據(jù)治理有針對(duì)性地采取措施去提高企業(yè)的數(shù)據(jù)質(zhì)量。 1.4.1數(shù)據(jù)的準(zhǔn)確性 數(shù)據(jù)的準(zhǔn)確性(Accuracy)是指數(shù)據(jù)采集值或者觀測(cè)值和真實(shí)值之間的接近程度,也叫做誤差值,誤差越大,準(zhǔn)確度越低。數(shù)據(jù)的準(zhǔn)確性由數(shù)據(jù)的采集方法決定的。 · 1.4.2. 數(shù)據(jù)的精確性 數(shù)據(jù)的精確性(Precision)是指對(duì)同一對(duì)象的觀測(cè)數(shù)據(jù)在重復(fù)測(cè)量時(shí)所得到不同數(shù)據(jù)間的接近程度。精確性,也可以叫精準(zhǔn)性。精確性與我們數(shù)據(jù)采集的精度有關(guān)系。精度高,要求數(shù)據(jù)采集的粒度越細(xì),誤差的容忍程度越低。 測(cè)量人的身高,我們可以精確到厘米,多次測(cè)量差異只會(huì)在厘米級(jí)別;測(cè)量北京到上海的距離,我們精確到公里,多次測(cè)量結(jié)果間的差異會(huì)在公里級(jí)別;采用游標(biāo)卡尺測(cè)量一個(gè)零件的厚度,可以精確到1/50毫米,多次測(cè)量的結(jié)果間的誤差也只會(huì)在1/50毫米間。采用的測(cè)量方法和手段直接影響著數(shù)據(jù)的精確性。 · 1.4.3 數(shù)據(jù)的真實(shí)性 數(shù)據(jù)的真實(shí)性,也叫數(shù)據(jù)的正確性(Rightness)。數(shù)據(jù)的正確性取決于數(shù)據(jù)采集過(guò)程的可控程度,可控程度高,可追溯情況好,數(shù)據(jù)的真實(shí)性容易得到保障,而可控程度低或者無(wú)法追溯,數(shù)據(jù)造假后無(wú)法追溯,則真實(shí)性難以保證。 為了提高數(shù)據(jù)的真實(shí)性,采用無(wú)人進(jìn)行過(guò)程干涉的智能終端直接采集數(shù)據(jù),能夠更好地保證所采集數(shù)據(jù)的真實(shí)性,減少人為干預(yù),減少數(shù)據(jù)造假,從而讓數(shù)據(jù)更加正確地反應(yīng)客觀事物。 · 1.4.4 數(shù)據(jù)的及時(shí)性 數(shù)據(jù)的及時(shí)性(In-time)就是數(shù)據(jù)能否在需要的時(shí)候得到保證。我們?cè)鲁鯐?huì)對(duì)上個(gè)月的經(jīng)營(yíng)和管理數(shù)據(jù)進(jìn)行統(tǒng)計(jì)匯總,這些數(shù)據(jù)能否及時(shí)處理完成,財(cái)務(wù)能否在月度關(guān)賬后及時(shí)核算。數(shù)據(jù)的及時(shí)性是我們數(shù)據(jù)分析和挖掘及時(shí)性的保障。如果公司的財(cái)務(wù)核算復(fù)雜,核算速度緩慢,上個(gè)月的數(shù)據(jù)在月中才能統(tǒng)計(jì)匯總完成,等需要調(diào)整財(cái)務(wù)策略的時(shí)候,已經(jīng)到了月底了,一個(gè)月已經(jīng)快過(guò)完了。特別是公司做大了之后,業(yè)務(wù)覆蓋多個(gè)市場(chǎng)、多個(gè)國(guó)家,數(shù)據(jù)不能及時(shí)匯總,會(huì)影響到高層決策的及時(shí)程度。 數(shù)據(jù)的及時(shí)性與企業(yè)數(shù)據(jù)處理的速度和效率有直接的關(guān)系,為了提高數(shù)據(jù)的及時(shí)性,越來(lái)越多的公司采用管理信息系統(tǒng),并在管理信息系統(tǒng)中附加各種自動(dòng)數(shù)據(jù)處理功能,能夠在數(shù)據(jù)上傳系統(tǒng)之后自動(dòng)完成絕大部分報(bào)表,從而保證數(shù)據(jù)處理的效率。計(jì)算機(jī)自動(dòng)處理中間層數(shù)據(jù)是提高企業(yè)數(shù)據(jù)處理效率的有效手段。 除了保證數(shù)據(jù)采集的及時(shí)性和數(shù)據(jù)處理的效率問(wèn)題外,還需要從制度和流程上保證數(shù)據(jù)傳輸?shù)募皶r(shí)性。數(shù)據(jù)報(bào)表完成了,要及時(shí)或者在要求的時(shí)間范圍內(nèi)發(fā)送到指定的部門,或者上傳到指定的存儲(chǔ)空間。 · 1.4.5 數(shù)據(jù)的即時(shí)性 數(shù)據(jù)的即時(shí)性是指數(shù)據(jù)采集時(shí)間節(jié)點(diǎn)和數(shù)據(jù)傳輸?shù)臅r(shí)間節(jié)點(diǎn),一個(gè)數(shù)據(jù)在數(shù)據(jù)源頭采集后立即存儲(chǔ),并立即加工呈現(xiàn),就是即時(shí)數(shù)據(jù),而經(jīng)過(guò)一段時(shí)間之后再傳輸?shù)叫畔⑾到y(tǒng)中,則數(shù)據(jù)即時(shí)性就稍差。 微博的數(shù)據(jù)采集,當(dāng)用戶發(fā)布了微博,數(shù)據(jù)立即能夠被抓取和加工,會(huì)生成即時(shí)微博數(shù)據(jù)報(bào)告,并隨著時(shí)間推移,數(shù)據(jù)不斷變化,我們可以稱作是即時(shí)采集和處理的。一個(gè)生產(chǎn)設(shè)備的儀表即時(shí)反應(yīng)著設(shè)備的溫度、電壓、電流、氣壓等數(shù)據(jù),這些數(shù)據(jù)生成數(shù)據(jù)流,隨時(shí)監(jiān)控設(shè)備的運(yùn)行狀況,這個(gè)數(shù)據(jù)可以看作是即時(shí)數(shù)據(jù)。而當(dāng)設(shè)備的即時(shí)運(yùn)行數(shù)據(jù)存儲(chǔ)下來(lái),用來(lái)分析設(shè)備運(yùn)行狀況與設(shè)備壽命的關(guān)系,這些數(shù)據(jù)就成為歷史數(shù)據(jù)。 · 1.4.6 數(shù)據(jù)的完整性 數(shù)據(jù)的完整性是從數(shù)據(jù)采集到的程度來(lái)衡量的,是應(yīng)采集和實(shí)際采集到數(shù)據(jù)之間的比例。一條信息采集12個(gè)數(shù)據(jù)點(diǎn),如我們采集員工信息數(shù)據(jù)的時(shí)候,要求填寫(xiě)姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學(xué)歷、最高學(xué)歷專業(yè)、最高學(xué)歷畢業(yè)院校、最高學(xué)歷畢業(yè)時(shí)間等12項(xiàng)信息,而某一員工僅僅填寫(xiě)了部分信息,如只填寫(xiě)了其中的5項(xiàng),則該員工所填寫(xiě)數(shù)據(jù)的完整性只有一半。 一個(gè)公司數(shù)據(jù)的完整性體現(xiàn)著這個(gè)公司對(duì)數(shù)據(jù)的重視程度。要求采集數(shù)據(jù)而實(shí)際上并未完整采集,只采集了一部分,這就是不完整的,往往是公司對(duì)數(shù)據(jù)采集質(zhì)量要求不到位導(dǎo)致的。公司要求每個(gè)人都填寫(xiě)完整的個(gè)人信息表,而有部分員工拒絕填寫(xiě),公司2000員工,只有1200人填寫(xiě)了完整的個(gè)人信息表,則這個(gè)數(shù)據(jù)集就是不完整的。 另外,對(duì)于動(dòng)態(tài)數(shù)據(jù),我們可以從時(shí)間軸上去衡量數(shù)據(jù)采集的完整性。比如,我們要求每小時(shí)采集一次數(shù)據(jù),每天會(huì)形成24個(gè)數(shù)據(jù)點(diǎn),記錄為24條數(shù)據(jù),但是員工瀆職,只記錄了20次,那么這個(gè)數(shù)據(jù)集也是不完整的。 · 1.4.7 數(shù)據(jù)的全面性 數(shù)據(jù)的全面性和完整性不同,完整性衡量的是應(yīng)采集和實(shí)際采集的差異。而全面性指的是數(shù)據(jù)采集點(diǎn)的遺漏情況。比如說(shuō),我們要采集員工行為數(shù)據(jù),我們只采集了員工上班打卡和下班打卡的數(shù)據(jù),上班時(shí)間的員工行為數(shù)據(jù)并未采集,或者沒(méi)有找到合適的方法來(lái)采集。那么,這個(gè)數(shù)據(jù)集就是不全面的。 我們描述一個(gè)產(chǎn)品的包裝,僅僅描述了產(chǎn)品包裝的正面和背面,沒(méi)有記錄產(chǎn)品包裝的側(cè)面,則就是不全面的。我們記錄一個(gè)客戶的交易數(shù)據(jù),我們只采集了客戶訂單中的產(chǎn)品、訂單中產(chǎn)品的價(jià)格和數(shù)量,而沒(méi)有采集客戶送貨地址、采購(gòu)時(shí)間,這個(gè)數(shù)據(jù)采集就是不全面的。 騰訊QQ和微信的用戶數(shù)據(jù)記錄了客戶交流溝通的數(shù)據(jù);阿里和京東的用戶數(shù)據(jù)記錄了用戶的購(gòu)買交易數(shù)據(jù);百度地圖記錄了用戶出行的數(shù)據(jù);大眾點(diǎn)評(píng)和美團(tuán)記錄了客戶餐飲娛樂(lè)的數(shù)據(jù)。對(duì)于全面描述一個(gè)人的生活的衣食住行各方面,這些公司的數(shù)據(jù)都是不全面的,而如果把他們的數(shù)據(jù)整合起來(lái),則會(huì)形成更加全面的數(shù)據(jù)。所以說(shuō),數(shù)據(jù)的全面性說(shuō)一個(gè)相對(duì)的概念。過(guò)度追求數(shù)據(jù)的全面性說(shuō)不現(xiàn)實(shí)的。 · 1.4.8 數(shù)據(jù)的關(guān)聯(lián)性 數(shù)據(jù)的關(guān)聯(lián)性是指各個(gè)數(shù)據(jù)集之間的關(guān)聯(lián)關(guān)系。比如員工工資數(shù)據(jù)和員工績(jī)效考核數(shù)據(jù)是通過(guò)員工這個(gè)資源關(guān)聯(lián)在一起來(lái)的,而且績(jī)效數(shù)據(jù)直接關(guān)系到工資的多少。采購(gòu)訂單數(shù)據(jù)與生產(chǎn)訂單數(shù)據(jù)之間通過(guò)物料的追溯機(jī)制進(jìn)行關(guān)聯(lián),而生產(chǎn)訂單又是由員工完成的,即通過(guò)員工作業(yè)數(shù)據(jù)與員工信息數(shù)據(jù)關(guān)聯(lián)起來(lái)。 其實(shí),我們本書(shū)探討的企業(yè)大數(shù)據(jù),每個(gè)數(shù)據(jù)集都是相關(guān)關(guān)聯(lián)的,有些是直接關(guān)聯(lián)的,比如員工工資數(shù)據(jù)和員工績(jī)效數(shù)據(jù),有些是間接關(guān)聯(lián)的,比如說(shuō)物料采購(gòu)訂單數(shù)據(jù)與員工工資數(shù)據(jù)。這些數(shù)據(jù)的關(guān)聯(lián)關(guān)系是由公司的資源,包括人、財(cái)、物和信息等,連接起來(lái)的。如果有任何的數(shù)據(jù)集不能連接到其他的數(shù)據(jù)集,就會(huì)存在數(shù)據(jù)割裂或者數(shù)據(jù)孤島。數(shù)據(jù)割裂和數(shù)據(jù)孤島是企業(yè)數(shù)據(jù)關(guān)聯(lián)性不足導(dǎo)致的。而數(shù)據(jù)的關(guān)聯(lián)性直接影響到企業(yè)數(shù)據(jù)集的價(jià)值。 全文摘自《企業(yè)經(jīng)營(yíng)數(shù)據(jù)分析》趙興峰著,轉(zhuǎn)載已獲得作者認(rèn)可。 |
|