Canner Guide

歡迎來到 『Canner Guide』,我們希望幫助企業在複雜的資料管理變革中,可以更精確與了解如何在企業中透過資料調用讓資料、人員、組織、應用得以透過一個平衡與完整的解決方案讓資料調用在規模化與多元化後,還能夠在一個安全、高效且統一的管理介面中完成企業的營運策略與數據多元化應用。

資料應用是現代企業最重要的一環,要把數據轉換成商業價值是所有企業的目標,希望透過數據增加企業在市場上的競爭力以及創新的原動力。企業中的日常營運各個不同部門每天都要接受市場的變化與挑戰,要依據資料做不同各種業務需求的判斷。

現代化資料架構

近幾年新型的資料堆疊技術推陳出新,起因於有三個重大的技術突破:

  1. 資料運算儲存架構的進化
  2. 資料流程工程化的革新
  3. 資料應用工具的創新

資料運算儲存架構的進化

資料運算與儲存架構的進化,主因於資料倉儲技術的突破,像是新型的雲資料倉儲服務 Snowflake, Redshift, BigQuery, Synapse 這些雲資料倉儲的運算與儲存層分離技術,讓資料能夠與運算獨立的擴充並且能夠非常彈性的依照使用場景做最佳化以及資源的配置。並且提供彈性且 pay-as-you-go 的付費方案,讓使用者在過去需要花上數百數千萬的費用建制,現在點擊即刻使用。

這些雲資料倉儲技術,不只在運算上的服務更彈性,在功能面上也比以往的資料倉儲技術支援更多元的使用方式例如 Snowflake 的 Snowpark 能夠透過他們的 Snowpark API 去寫 SQL statement 並且不犧牲運算上的執行效能以及 BigQuery ML 讓資料倉儲不只處理運算能力外,也能創建與執行 Machine learning 的模型。

不只在傳統的 Data Warehouse 有了新的架構與服務,在 Data Lake (資料湖上) 也出了完全不同的新概念叫做 Lakehouse ArchitectureDatabricks 提出,讓資料的異質性與分散的資料及,透過即時串流 (Real-time Streaming) 的方式,輸入並運算像是資料分析、機器學習(ML) 等能力,並且賦予資料湖 ACID Transaction、資料治理、運算結構與非結構資料等,讓資料湖有了全新的生命。

資料流程工程化的革新

資料流程也在近幾年由於除了 ETL 的處理流程外,ELT 的處理流程更加盛行。讓資料流程上更工程化,資料轉換也有新的框架幫助企業在大型的資料流程上也能規模化,像是 dbt, LookML 這些工具協助企業在資料模型、轉換、Metrics 建置更容易維護與建置。透過程式設定檔,完成企業資料流程確保資料的一致性,包含版本控制、品質管理、文件生成、模組化、自動化。

資料應用工具的創新

新型的資料儲存與處理技術,讓資料再大的的量級在足夠的預算上都是能夠處理。在新的資料流程工程的革新,資料的複雜度、規模化與可擴充性比起過去更為容易維護。在資料儲存,處理與維護上沒有限制的情況下,自然而然在近幾年有蓬勃發展的資料應用工具生態系。

讓資料達到不同的資料與分析應用工具,並且針對不同的應用的使用者,給予專業化的軟體必然是接下來的趨勢。在 2022 年 Snowflake Summit 上 Snowflake CEO Frank Slootman 宣布 Snowflake 的新框架,叫做『Snowflake Native Application Framework』,讓更多第三方的資料供應商,以及資料應用獨立開發商。能夠直接在 Snowflake 上建立 Native 的資料應用工具。相信必然在接下來各個主流的資料倉儲公司都會發展類似的 Marketplace 服務讓資料直接與應用做對接。


未來的必然趨勢,是資料與應用(ML, 分析應用)會有越來越模糊的界線,資料能夠更透明更容易的方式在各種不同的應用工具中,更高生產力、可擴充、易維護並且讓資料與組織內部的架構更融為一體,讓資料得以做到最有效的應用。