Back to Blog
DataOps 元素是什麼? 建立一個有效率的企業內部數據循環流程需要有哪些元素呢?
2021/09/28

DataOps 在企業目前還算是比較新的數據方法論,主要希望能夠把數據處理、數據分析、DevOps 的整個高品質數據能夠自動化以及更敏捷的執行在企業中。它包含的層面很廣像是在整個資料分析生命週期、資料萃取到資料視覺化以及報告等,敏捷式的數據應用讓企業的業務結果能夠更精準更有效率。

我們來先看 Gartner 對於 DataOps 的定義

“A collaborative data management practice focused on improving the communication, integration, and automation of data flows between data managers and data consumers across an organization.”

讓我們來更了解到 DataOps 之前我們來先看 DataOps, DevOps 與 MLOps 的相關性

DevOps

  • 跨組織協作
  • 自動化軟體開發流程
  • 軟體自動部署

DataOps

  • 資料分析
  • 自動化資料質量分析
  • 自動化數據轉換
  • Data Versioning
  • Metadata Store

MLOps

  • 自動化模型訓練
  • 自動化模型驗證
  • Machine Learning 自動化部署

上圖可以看到企業中,把 DataOps 以及 MLOps 融合搭配達到,全自動化的數據到模型開發整合,敏捷式的數據生命週期。

XXOps 相關的原則

現今我們常聽到的各種 xxOps 的重點主要是企業內部的心態轉變,把企業內部的軟體開發、數據流程、AI/ML 流程達到更高層的協作以及共享。主要有以下幾點

  • 跨組織協作
  • 共同產出結果
  • 元件共用與重複使用
  • 自動化
  • 追蹤與量化
  • 流程與迭代

DataOps 流程架構

DataOps 是一個 end-to-end 的分析流程是一系列的自動排程渠道,這個渠道從自動化的資料萃取、轉換、取得最終的結果到各種應用與企業需求。所有的數據運算,最後會透過自動化整合與自動化部屬整合使是 DevOps 的架構達成整個數據的生命週期,在每個流程都會確保資料更新以及資料品質做監控。

上圖可以看到主要在 DataOps 中分為兩個部分一個是 Data analytics pipeline ,第二則是 CI/CD。

數據分析渠道 (Data analytics) 的主要階段

  • 數據獲取:資料從原始的資料源取得、驗證後到所有下游系統。
  • 數據轉換:把資料轉換以及加值成其他應用單位所需的數據。
  • 數據分析:應用單位拿來做數據分析與精煉數據。
  • 視覺化報表與結果:做最後最終的數據產出呈現在給主管以及跨部門看到的數據結果。

CI/CD 流程自動化的作業流程

  • 開發環境:在 DataOps 很常會有新的數據渠道以及新的數據模型需要開發與做出雛形。
  • 測試環境:有了一個雛形後會想以針對這個新的想法進行測試與驗證的階段。確定新的開發結果符合新的業務場景或應用。
  • 部署:到了這個階段確定有一個想要用的模型後就會部署到給更多單位或給更多使用者測試與使用。
  • 追蹤監控:部署後在各種不同的應用場景中,為了要確定現在的流程是否有改善的空間或是監控其效能等都會有監控工具做數據監控。
  • 系統協調 (Orchestration):由於在這整段週期中,會橫跨不同的系統做數據操作或搬移,這時候需要 Orchestration 做系統上的協調。

希望以上的介紹大家有更近一步了解到 DataOps 指的是企業中的什麼角色,以及它的重要性!

No reproduction without permission, please indicate the source if authorized.

Share to your friends!

Follow Us
CannerFlow Platform
Connecting data lakes, databases, files, clouds as one data platform.
Learn More
Contact Us
Want to connect with us and talk to us? Contact us now!
Request Now