資料管理三大挑戰

企業內部的現代化資料調用的目標:

讓資料使用者能夠找得到資料,使用時同時兼顧安全與取用效率

回想一下過去現在企業拿資料的流程,應用單位想要取用一個資料的流程:

  1. 需求者需要先找到資料擁有者,可能在 IT 或是 MIS 的哪個人手上有這個資料。
  2. 跟資料擁有者索取資料集,資料擁有者手上的這張表有部分欄位需要過濾或是遮罩,才能給特定的團體或是個人使用。需要透過某種方式把欄位遮蔽,遮蔽後輸出。
  3. 如果使用者想要在 Excel, BI 或是 API 的方式取得,就需要在看用什麼方式實作讓使用方得以在工具中取得資料。
  4. 最後在會依照使用頻率做優化處理,或是自動化(每日、每週或每月)。

without Canner

當資料的取用規模到數百數千個需求者與單位,規模化的調用是企業企業在應用的最大瓶頸。在企業端我們常聽到資料的取用通常會花上數日或數週的時間,最大的挑戰在於如何我們把資料調用流程最佳化

資料管理的複雜度

在企業中,資料管理的複雜度主要分為三個維度,『資料的異質性』、『權控階層性』、『應用工具多元化』這三個維度,讓企業中的資料在調用的時候需要透過許多人工、系統建置、優化,來達到這三個維度最適當的異質資料的同質化、適當資料權控、以及優化輸出應用工具,讓資料可以安全與最有效率的方式的提供給需求單位或人員使用。

解決資料調用瓶頸的關鍵就是,達到『資料源』、『權控階層』、『應用工具』的完美平衡。

balance

挑戰一:異質的資料源

首先企業中的資料會因應不同的應用場景存在最適合的資料儲存方式中,例如: 資料湖儲存歷史與事件軌跡資料、NoSQL 資料庫儲存資料屬於彈性 Schema 與半結構畫資料、資料倉儲儲存核心資料與 Hot Data、資料庫儲存即時交易型與應用程式資料、各種不同的業務性與銷售資料常常以檔案的形式儲存。

在企業內部資料天性會是以散亂的形式在企業內部儲存著,企業為了要把資料安全的授予特定的組織或是人員,會額外建置資料處理的數據渠道,或是為了要把資料轉換變成特定的工具能夠使用的方式,會建置額外的轉換工具為了就是把資料能夠得以應用。

data storages

挑戰二:權控系統互相獨立

資料權控橫跨資料儲存與應用工具,散亂在各地;資料庫中的權控,會針對不同的 Table, Database 授予給特定的資料操作與使用者做操作或讀取權限,在應用工具中的業務單位人員使用的各種工具,都有獨立的授權方式在應用工具中連結資料源取得資料;從這些工具取得資料的使用者以及群體的資料權控以分散在資料源、以及各個工具中,無法有效地追蹤以及確立每個資料集的資料安全性與隱私性。

資料權控與組織身分權控互相獨立;企業內部的資料權控,現在與企業內部的組織結構是互相獨立的輛套系統。企業內部的身分認證系統,像是 Active Directory、LDAP 等 Identity and Access Management (IAM) 與資料庫權控、應用工具權控,這三套系統的權控機制互相獨立,造成企業內部的資料權控無法統一且安全的管理。

挑戰三:應用工具的多元化

資料應用工具,比起過去單用 Excel 或是 BI 做應用工具來的越來越多元,且越來越專業化。光是 Spreadsheet 就有包含 Excel, Google Sheet 以及 Airtable,BI 也有像 Tableau, Power BI 以及像是台灣的品牌 Smart eVision 以及台灣睿智 Analyzer 等台灣的 BI 供應商。

近幾年在歐美也掀起了越來越多資料應用創新,包含像是 AI-driven BI 軟體、Data Workspace、Embedded Analytics 以及像是 Reverse ETL 的新型資料整合工具的出現,讓資料的應用。公司在資料應用端會導入至少 5 套以上不同的服務來支持,企業內部營運與分析的需求。