SELECT * FROM 資料小聚會後分享
2022/10/19

資料競賽時代正式來臨!數據分析師們都想盡辦法針對各家企業業務分析,讓資料驅動決策這件事,成為The Next Big Thing。Canner 【SELECT * FROM 資料小聚】在 9/29 順利舉辦完成, 本次小聚的四位講師包含 Eason、Cooper、嘉平,分享使用開源的應用場警語使用經驗,讓大家更清楚瞭解如何用開源協助分析工作。以及由「資料科學家的工作日常」維元分享「數據導入架構分享」,感謝大家下班後的熱情參與讓當天現場人數爆滿,帶著滿滿分享回家。

S__9257011.jpg

非常感謝每一位來參加小聚的你們,大家的回饋都是下一次小聚活動的舉辦動力。

IMG_0047.JPG

接著就讓我們簡單回顧一下當天四位講師分享內容:

▍分享一|VulcanSQL: 如何快速把你的 Data Warehouse 變成 API

eason_talk.jpg

第一場分享由 Canner 後端工程師 Eason 與大家分享開源專案 VulcanSQL 開發的初衷與想法,從解決現代資料工程師的角度,讓 VulcanSQL 提供資料分析師更便於資料共享的 API 開發框架,只用 SQL 就可以快速把資料倉儲轉成可對內對外使用的 API,可自動產生 API 文件,以及調用資料的後來介面,讓不會 SQL 的使用者也可以透過 VulcanSQL 的後台完成資料串接 / 下載 CSV 等操作,讓調用資料更簡單,更自助化。

更多關於 VulcanSQL 資訊:VulcanSQL 官網

▍分享二|從 Trino 到企業級資料共享產品的開發之路

S__15327248.jpg

第二位分享者則是 Canner 資料工程師 Cooper,Cooper 因研發企業級資料共享解決方案,基於 Trino 做了不小的修改,很多修改也貢獻回到社群。快速 SQL 查詢引擎,專為針對多個來源的大型資料集進行互動式分析查詢所設計。世界級企業客戶多以Trino為處理巨量資料運算架構,如Facebook 本身用於處理300 PB級之資料倉儲、Netflix 用於處理儲存於AWS S3中10 PB級以上之資料、這次分享中,Cooper 介紹 Canner 實作在 Trino 上的企業需要的功能,也著重在 connector 的動態更新做深度介紹,例如如何在 Trino 設定 Connectors。

更多關於 Trino 資訊:Trino 官網

▍分享三|聽說隔壁部門開始用 Kafka 了

IMG_0139.JPG

第三場分享由Chia-Ping Tsai 蔡嘉平博士進行,嘉平同時也是HBase, Kafka, Yunikorn的核心開發者 (committer & PMC),另外也是 Apache Member 和 HBase, Kafka 官方研討會的委員。最近重心放在推廣 Kafka 技術到台灣的各個領域,透過淺顯易懂的方式,讓大家了解 Kafka 為世界級熱門大數據事件串流處理系統的運行方式,Kafka 由 LinkedIn 公司開發,是一個分佈式的,支持多分區、多副本,基於 Zookeeper 的分散式資訊流平台,最大的特點就是收發消息非常快,kafka 每秒可以處理幾十萬條消息,它的最低延遲只有幾毫秒,常被運用在事件追蹤、日誌紀錄等等應用場景。

更多關於 Kafka 資訊: Kafka官網

▍分享四|數據架構導入經驗談

S__9257013.jpg

第四場分享由「資料科學家的工作日常」維元分享,資料分析能夠幫助企業用更量化的方式解決問題,但是在導入的過程中會面臨許多不同的挑戰。維元分享過去在不同單位的數據導入的經驗談,如何讓企業願意隨著業務量的增長調整資料架構與團隊數據文化的階段性任務。在導入的過程中透過不同的開源工具,逐步建立「人人都是資料分析師」的團隊分工。

更多關於資料科學家的工作日常:Facebook

本次活動非常感謝四位講師的鼎力相助,以及每一位到場參加的人。資料小聚我們下次再見。

如果您對資料小聚有任何建議,請不吝與我們聯繫,或者加入 Discord 與我們互動聊聊。

關於【SELECT * FROM 資料小聚】

SELECT * FROM 資料小聚以分享更多與資料相關的開源為主題,希望讓更多人可以透過開源軟體,解決資料分析與資料工程的問題,不藏私的公開開源開發者的看法與見解。我們將定期每季舉辦小聚活動,如果有興趣歡迎追蹤我們的 Discord,一起在上面聊資料。

本公司圖文版權所有,轉載請註明出處。

Share to your friends:
立即開始使用 Canner 吧!
聯絡我們