Back to Blog
中型科技公司適合採用資料虛擬化而不是資料倉儲呢? (解釋 ETL & ELT & Data Virtualization)
2021/06/10

現在雲端服務非常普及,不論是在 AWS, GCP, 或是 Azure 上,都有很多不同的資料倉儲的解決方案如 Redshift, BigQuery, Synapse 等等,過去資料倉儲一般來說是給商業模式、業務也非常穩定的大型企業,為了大量數據的分析應用而使用這些資料倉儲技術做大數據運算。

現在有兩種較為普遍的建置數據流程與資料倉儲方式。

在講解以下的概念前我們先了解一些定義:

  • E (Extract): 把所需要的資料萃取出來。
  • T (Transform): 轉換成需要的聚合或綜合數據。
  • L (Load): 載入新的一個儲存地點。

以下為兩者個解釋與差異 ETL vs. ELT

1. ETL + Data Warehouse

ETL + Data Warehouse

上圖是一般 ETL + Data Warehouse 架構,資料會儲存在針對不同應用場景方便接收地方可能是資料庫、檔案、資料湖等,資料接收進來會萃取與轉換在資料倉儲 (Data Warehouse) 中。

在資料倉儲中會做很多不同面向的數據轉換供應給各個應用單位,在公司或企業中應用單位非常多有業務、銷售、行銷、營運等等。

2. ELT + Data Warehouse

另一個現在非常流行的另一個方法,與過去的 “ETL + Data Warehouse” 最大的不一樣就是先把資料 load 進資料倉儲裡面再做多階層的數據轉換,產生應用端數據。

ELT + Data Warehouse

可以看到為什麼 ELT 會比現在 ETL 來得受到青睞,因為在資料流程來看是單純非常多,資料先進到 Data Warehouse 中在做後面的數據轉換與轉型。

ETL + Data Warehouse vs. ELT + Data Warehouse : 最大差別在於 ETL 的地方,在過去 ETL 是把數據邏輯在進入到 Data Warehouse 前就做完轉換在 load 進入 Data Warehouse 中。而 ELT 是先把資料鏡像 load 進入到 Data Warehouse 中在 Data Warehouse 中在做數據轉換以及數據聚合。


可以看到不論是 ETL + Data Warehouse 與 ELT + Data Warehouse,由於他建置與維護是非常複雜,且成本是不容小覷的,第二是他的成本當數據量越大以及越來越複雜時是成長非常快速的。

3. 資料虛擬化符合快速變化與靈活需求報表 - CannerFlow

資料虛擬化 CannerFlow

CannerFlow 是基於資料虛擬化的概念建制,前面看到的不論是 ETL 與 ELT 最大的差異就是『資料必須先儲存進入到 Data Warehouse』才能做後面的轉換或是供給給應用單位使用。

CannerFlow 資料虛擬化 - ETL 與 ELT 最大的差異就是『資料必須先儲存進入到 Data Warehouse』,資料虛擬化不需搬移數據才能供應數據需求。

  1. 快速連結各種檔案格式與跨組織的資料
  2. 即時標準化與正規化數據
  3. 讓數據管理能夠規模化,從小規模到大規模都適合
  4. 未來企業數據規模增長也能夠適用

為什麼 CannerFlow 資料虛擬化更適合新創與中型企業

  1. 業務需求不斷調整與改變
  2. 商業模式也不斷在改變
  3. 人力有限
  4. 資金有限
  5. 維護成本過高

很常見的幾個問題

  1. 企業低估維護成本
  2. 企業低估建置成本
  3. 認為新創未來數據到很大量數 TB 或更大量級要怎麼辦,過早優化讓成本與資源浪費
  4. 企業低估業務改變時建制 Data Warehouse 跟進的成本
  5. 很多業務很難改變,是因為數據定型,後續單位很難擴充

想要嘗試 CannerFlow 資料虛擬化嗎?歡迎聯絡我們

Share to your friends!

Subscribe our newsletter!
CannerFlow Platform
Connecting data lakes, databases, files, clouds as one data platform.
Learn More
Contact Us
Want to connect with us and talk to us? Contact us now!
Request Now