Back to list
什麼是資料品質?
2022/02/03

什麼是資料品質? (Data Quality)

企業主要的商業命脈,在現今越來越依賴『數據』,做相關的策略、執行、合作。使用到錯誤的資訊所帶來的錯誤決策、錯誤判斷、錯誤執行的隱藏成本是非常高的。所以現在企業開始關注在企業內部的資料品質議題,此篇我們將更深入的探討此議題以及向大家介紹 Data Quality 一般來說是指哪些項目。

低品質的數據所帶來的影響

如大家所知道的,低品質的數據可能會照成企業巨大的損失,且同時在數據擴張後會慢慢減緩資料整合以及資料信任度。就算是您取得了數據,你也不知道能不能相信此數據。

在資料領域中,『Stale results are no results (不清楚精確的結果等於沒有結果)』您不知道數據來源、數據脈絡、數據新鮮程度等於沒有數據,因為企業使用單位不知道能不能相信這個數據。

因此企業需要思考一個數據監控管理數據品質確保資料的一致性與信任度。讓企業使用單位能夠安心且有效的使用數據。

數據品質面向為何?

數據品質能夠讓使用單位所需的數據以及要求,確保資料的輸出能夠滿足使用端的需求,像是規劃、報表、決策以及營運所需。我們需要怎麼確保此事呢?答案就是我們需要有能夠評估的『數據品質面向』。

在 1996 年 Richard Wang, Diane Strong 提出了數據品質的概念性框架 “Beyond Accuracy: What Data Quality Means to Data Consumers.”

總共分為四大類

  1. 本質性 (Intrinsic)
  2. 脈絡性 (Contextual)
  3. 代表性 (Representational)
  4. 易用性 (Accessibility)

根據 IMF (國際貨幣基金組織) 對資料品質定義 Data Quality Accessment Framework (DQAF),我們根據主要 5 大項做定義:

  1. 本質性 (Integrity):數據分析透過收集、運算以及分享達到目標。
  2. 方法論與健全性 (Methodological soundness):分析需要依循國際可接受的標準、方針以及最佳實踐。
  3. 準確性與可靠性 (Accuracy and reliability):來源資料需要在需要時能夠提供以及取得一個全面的數據取得以及可靠的流程。
  4. 高服務性 (Serviceability):分析需要一致於所有的資料集就算是已經過了很長很一段時間,以及需要能夠定時的更新與儲存。
  5. 易用性 (Accessibility):資料需要提供 metadata 以及數據讓使用單位能夠知道也能夠取得數據。

數據品質管理 (Data Quality Management - DQM)

Data Quality Management (DQM) 是數據品質管理的實踐方案,讓企業內部可以透過一個框架管理、維護以及精進在企業內部的數據品質橫跨整個公司組織。

1. 資料品質鑑定與定義須加強的數據

針對企業內部針對使用場景以及使用方式需要了解到哪些地方的數據品質會影響到企業內部的營運影響,把相關的需求整理出來。

上而下制定方針 (Top-down)

接下來團隊可以使用這些鑑定結果透過上而下,針對上級規範以及討論,討論出一個完善的流程來做流程上的優化以及導入,來避免未來數據維護上品質上的困難。

下而上的工具整合 (Bottom-up)

使用數據品質工具來達成在數據執行端確保資料的一致性,以及分析的準確性。可以使用方法像是 Data Profiling 使用不同的分析演算法、商用邏輯來做資料的特性分析。

  1. 架構探索:確認數據的最大值、最小值、數據分佈等
  2. 內容探索:判斷好與不好的資料,例如資料格式錯誤、Null value 等
  3. 關聯性探索:確認資料的關連性架構以及每個資料是否使用從來源到結果是使用正確的數據

2. 定義數據品質指標與規則

需要導入 Data Quality 與維護數據,最先需要知道的是標準為何?如何判斷資料是否可行或不可行,以及各種不同使用場景所需的標準可能不一、規則也不一。需要有定義指標跟規則。

3. 定義數據標準、Metadata 管理以及數據驗證規則

有了指標以及規則就是建立一個可以自動化的標準以及驗證規則,例如

  1. 數據標準:確定資料可以統一以及交換透過一致的標準定義與驗證。
  2. Metadata 管理標準:規則以及 Policies 在 Metadata 的管理需要定義治理方針,Metadata 管理標準可以分成三類 a. 商務:不同應用不同的安全性與隱私標準 b. 技術:架構性、格式以及不同的儲存方式 c. 營運:制定營運的 Metadata 管理
  3. 數據驗證流程:數據驗證規則可以評估資料是否有不一致問題,開發者能夠開發數據驗證規則來整合自動化管理。

4. 導入數據品質與數據管理軟體標準

在此就能夠開始把整個企業內部的數據品質標準與過程變成以個制式的資料管理生命週期,並且讓團隊能夠透過新的數據股臉規則來管理。

5. 數據監控與補救

使用資料清理工具來偵測錯誤或未處理完成的數據,讓企業內部的數據流程標準化。標準化後要能夠及時的監控以及確保資料能夠在所需的時間完成以及有信心地在各種應用上使用,如在資料處理發生錯誤或是異常也需要在企業內部建立補救流程與措施來因應。

單一平台加上商務性語意 提升資料品質保障

透過保障資料品質,可以大幅度增加資料消費者最終拿到資料的正確性,也能夠減少開發工作的重複性。尤其當組織數位化程度愈高,開始需求更大量的數字分析結果,為了避免發生毒樹毒果狀況,資料品質將成為一門重大的管理學問。透過 Canner 虛擬調用層,加入商務性語意,拉進程式語言與資料使用者的距離,再加上透過虛擬調用層,統一對資料來源進行調用,完整掌控風險,讓資料能夠真正地找到對的人。

本公司圖文版權所有,轉載請註明出處。

Share to your friends:
申請試用 Canner
申請試用