Back to Blog
Data Swamp vs. Data Lake,企業在建立湖還是沼澤呢?
2021/07/15

企業內部的資料湖目前在企業內部是一個非常常見的數據解決方案,但往往到最後會變成我們常說的資料沼澤 (Data Swamp),在此之前我們可以先解釋一下什麼是資料湖?與資料沼澤。

資料湖是一個集中式儲存庫,可讓您以任何規模存放您的所有結構化和非結構化的原始資料 (Raw Data)。您可以按原樣存放資料,而無需先建立資料結構,以及執行各種不同類型的分析,範圍從儀表板和視覺化至大數據處理、即時分析和機器學習,從而指引做出更好的決策。

企業先在都建置大型的資料湖來儲存企業內部大量的原始資料,資料湖因為非常方便可以儲存各式不同的原始資料,所以企業會有許多不同部門的同仁因為不同的使用需求在資料湖中儲存與處理自己的資料集。這時候就會慢慢出現我們講的資料沼澤 (Data Swamp),Data Swamp 指的是在企業中,沒有被活躍維護的資料集或者是資料處理流程, 導致到最終會有獨自數個數據儲存空間但無法被重複利用以及有效的管理。

所以在企業導入資料湖的同時我們也會建議企業要開始設立一些資料湖的管理與治理,讓企業的資料湖能夠有效且長久被使用。

資料湖與資料沼澤的相似性

要判斷說企業內部到底是建置一個資料沼澤,這個界線模糊,因為其實資料湖與資料沼澤有許多共通點

1. Schema on Read 架構:

資料在儲存在資料湖與資料沼澤中都是 schema on read 的架構,所以接適當資料的 schema 是 ad-hoc 的方式建立,也就可以處理非常彈性的 query 與使用場景。

2. 低成本的儲存:

因為兩者都是建置在 Data lake 架構所依靠低成本的儲存做大數據的原始數據的儲存空間。

3. 都可以當作大數據運算的基底:

兩者都可以當作數據工程師、數據分析師拿來處理數據,應用數據的方式。

資料湖與資料沼澤的差異

企業要在建立資料湖前,要先能夠了解到資料湖以及資料沼澤的差異,並且盡量避免過多的資料沼澤在企業內部讓資料未來難以管理以及應用。

1. 資料管理

所有的跨集團以及跨組織的數據如何儲存,如何分類在資料湖中。如何讓企業能夠未來能夠把已經處理過的資料能夠有效管理與重複利用。

2. 資料權限

資料權限是資料湖應用中重要的一環,要如何確認對的人才能夠使用特定的資料,以及資料要如何切割各個單位與職責的數據使用,都是避免統一的資料湖最終變成各個部門自己維護的資料沼澤關鍵之一。

3. Data Catalog

資料歸檔與目錄在企業內,能夠有效管理資料與重複利用重要的一個功能。能夠讓自動化處理的數據以及已經處理完成後的數據可以容易被搜索以及建立完善的目錄與標籤。

4. Metadata 管理

由於在資料湖中的數據需要額外管理很重要的資訊為 Metadata,也就是不同的 Raw data 的各種原始數據的數據樣貌。

5. 數據應用管理

在資料湖的數據應用非常廣泛,可能是從各種大數據應用軟體像是 Spark, Kafka 等等的軟體,或是從 BI 數據應用程式,或是直接從各種分析工具像是 Jupyter Notebook, Python 等等。如何有效讓各種應用單位能夠快速的應用在各種數據應用是非常重要的一環。

6. 定期數據清理

如果單位沒有使用太久的數據,會不斷疊加無用的數據出來。需要有一個數據定期清理,或是方便清理的方式避免垃圾數據不斷疊加浪費儲存資源。

資料虛擬化 - 快速搭建資料湖數據管理框架

在 CannerFlow 資料虛擬化管理系統中,內建了所有可以幫助企業管理複雜的資料湖數據應用,包含

  1. 跨資料聚合
  2. 各層級複雜的資料權限
  3. Data Catalog
  4. Metadata 管理
  5. 數據應用管理

等…

No reproduction without permission, please indicate the source if authorized.

Share to your friends!

Follow Us
CannerFlow Platform
Connecting data lakes, databases, files, clouds as one data platform.
Learn More
Contact Us
Want to connect with us and talk to us? Contact us now!
Request Now