
過去因為我們的資料散佈在雲端、地端,資料庫類型也不同,所以無論在數據分析、報表視覺化使用,亦或是資料科學家要建立模型時,都需要花費不少時間在資料的ETL,並且還需要事先規劃好資料模型以及資料的排程與更新規劃。現在有了Canner,它可以快速地聯結各種資料庫,無論是在雲端或是地瑞,並且可以用簡單的SQL語法將資料整合在一起,也能輕鬆的做好排程更新。大大節省了資料分析與應用的前置作業與時間,讓資料分析師與資料科學家可以更便利且更充裕的時間來應用。
Steven - 誠品 資料分析主管
雲地分離的痛 搬運資料就得花上好幾天
誠品的資料來源來自不同資料庫,儲存的地方有些在雲端,有些在地端,像是帳號中心、會員點數系統、舊的誠品電商交易系統,都在地端的 SQL Server 裡,而新的誠品線上交易資料、櫃位推薦 APP 交易系統,以及提供分析使用的 Data Mart 都是在雲端。
過去要分析這些資料時,都需要設法將資料統一匯整至雲端的 Data Mart 中,這其中需要花費許多人力與時間在 ETL 上。這些至少都是要花費 1-2 天,甚至 1 個星期的時間。
- 線上線下、各個不同的系統數據的整合
- 地端、雲端的資料庫數據的整合
- 建置 ETL 花費大量人力及時間,需花 1-7 天不等
- 資料很龐大又雜亂,浪費了 Data Mart 空間
- 資料散落在各個資料庫,管理不易
因為一個使用者需求,花費三個月以上的時間卻還不能滿足
一開始是依據 User 的需求建置了一個 Data Mart,從 Data Model 的設計到ETL程式的開發與測試,到最後的資料驗證與排程更新,前前後後大約花了 3 個月以上的時間。但是後來 User 的需求更深入且多樣化,再加上資料科學家加入了統計建模及 AI 應用,使得資料來源與資料量的需求越來越多,假如要用傳統的 ETL 將一般的交易資料轉進 Data Mart ,會擔心因花費不少時間上,無法滿足所有人的需求。
另外,在建立 Data Mart 時會依據需求來判斷來源資料是否有分析價值,有些資料一開始認為僅是記錄型資料,所以沒有規劃納入 Data Mart 中,但往往上線之後,User 突然提出了要看這類型的需求,以往這種資料很龐大又很雜亂且太類似流水帳,會覺得浪費 Data Mart 的空間,並且這樣的資料散落在各個資料庫之中,要整合在一起需要花費很多的時間與空間來整理與存放,對於這種資料就需要取捨是否要規劃至 Data Mart 中。
Canner快速整合異質資料源 滿足不同使用者分析情境與需求
Canner 標榜著可以快速整合不同的資料來源,並且能符合不同使用者與使用情境,再加上可以有不同的資料使用權限控管,於是就想說試著來使用 Canner。希望可以快速的整合不同資料來源的資料,不論資料庫在雲端或是地端,亦或是不同家的資料庫,都希望以最少的時間與最小的 effort 來統整資料,來快速的符合資料分析師與資料科學家對於資料以及 BI Report 的需求。
使用情境:雲地資料一次整合到位 加速報表與統計模型使用
目前誠品資料來源,地端包含舊誠品電商的交易資料、帳號中心資料、會員點數系統資料,這些都是 SQL Server。再加上雲端上有誠品線上(新EC)的交易資料、櫃位推薦系統以及 Data Mart 的資料,這些資料庫都是雲端資料庫。
誠品使用 Canner 將各個資料庫都設定好,依據不同的需求將 Table 連結 Canner 後,再使用簡單的 SQL 來製作成 Materialized View。之後將這些 Materialized View 串接到 Tableau Server 上供資料分析師製作視覺化報表,以及提供給資料科學家使用Python 建立統計模型與AI使用。
Next Step With Canner: 提供更多資料分析的彈藥庫
以資料工程師來說,過去希望在 Canner 整理好的 Materialized View 可以整合 ETL 來給其他資料庫使用。而Canner亦快速的提供了解決方案,讓誠品十分滿意。
以資料科學家來說,會想針對顧客因行銷活動而購買的統計預測模型,透過 Canner 整理好建置模型所需要的解釋變數及預測變數資料集,並透過其中的 Jupyter notebook 的排程功能建立視覺化的行銷活動描述性統計視覺化圖表進行定期的資料初步檢驗, 而進一步的模型建置會將 Canner 建置的Materialized View 串到自己環境的 Python 做處理。
本公司圖文版權所有,轉載請註明出處。