Back to Blog
十大常見大數據的誤解(一)
2019/09/06

當我們團隊在面對客戶以及用戶時,常常會討論到許多常見對大數據上的誤解,這篇部落格想要讓您更認識大數據!大數據跟你想得很不一樣喔!

第二篇:十大常見大數據的誤解(二)

誤解一:大數據架構可以快速地建置

大數據的環境建置需要考量很多層面的問題,而且通常會花非常多的時間從頭規劃到最後執行(至少兩個月以上),然後最終才會有數據分析師、科學家能夠很安全且信賴的使用公司內部的大數據系統。

大數據可以牽扯到的流程以及技術是非常廣泛,且每一個部分都需要高度專業的人員才能夠設定以及未來擴充。

雲端建置數據平台所需的考量:

  1. 費用:機台以及所使用的服務集,數據流程通常建置並不是一個非常便宜且易取得的通常還會配合許多第三方數據管道 (data pipeline) 的建置。
  2. 響應時間 / 備份:當數據來源多元以及數據量越來越大的時,擴充的架構以及系統發生問題的後備方案。
  3. 權限管理:當建置數據管理時,權限控管會變得特別重要,因為數據會很容易外流而且濫用。需要一套值得信賴且簡單維護的系統。

On-Premises 的考量:

  1. 硬體、軟體問題:由於當數據管理擴充時,軟硬體的提升會是將來非常巨大的挑戰。
  2. 實體地點設置:如果自己擁有機台同時也需要顧慮到未來團隊擴張或數據量大增時設置上的問題。
  3. 權限管理、網路安全:不只網路的安全性,也需要同時顧慮到實體的主機及數據安全性。

所以要建置一個大數據或是數據管理的平台,是需要花費大量的時間。同時如果要思考到未來長遠的規劃通常都需要數月的時間規劃以及找尋適合的合作夥伴以及人才。

誤解二:大數據是 "一個" 工具而已

大數據是非常複雜工具所組合而成的,當你的目標不一樣時組合跟架構會非常不一樣。而最常見的架構是建置在 Hadoop 框架之上。

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. 

上面是 Apache Hadoop 的定義,Hadoop 是一個 "Framework" 上面有許多服務圍繞在這套服務之上。

來源:https://www.edureka.co/blog/hadoop-ecosystem

一般企業要導入大數據技術通常都會混合至少五種以上,不同技術達到他們所想要達到的目的。

誤解三:大數據系統很快?

大數據的目的並不是要快,一定會有一定的延遲性。而是要能夠有效率地處理非常大量的數據,通常是分散式架構去達到大數據分析。可能是批次 (batch) 或是串流 (streaming),通常在設計大數據架構時都會去設想使用上能夠容忍的延遲時間 (Latency) 進而設計最適當的解決方案。

大數據是一定有必要的延遲性。最重要的目的是有能力可以去計算或是去或許想要的巨型資料,當然能夠越快越好!

誤解四:大數據是數據科學家可以自己搞定的

以下是一個專業的數據科學家應有的技能:

來源:https://www.kiwidatascience.com/

我們來看數據科學家一般所需要的技能,數據科學家的技能應是導入數學理論及分析技巧,把數據傳達給更多人能夠理解。

  1. 數學及分析
  2. 撰寫 Script 程式及資料庫 SQL 語法
  3. 專業領域的相關知識
  4. 溝通以及數據視覺化的能力

裡面並沒有系統架構以及資料庫設計等相關能力,數據科學家以及分析師的工作其實與大數據架設基本上是完全不一樣的領域。在上面幾項可以看到 Hadoop 整個的社群工具有多複雜。

一個完整的數據團隊是由數據分析師、數據科學家、數據工程師所共同合作組成。

誤解五:大數據不貴

可以看到有很多大數據技術是開源的,所以很多人會覺得導入大數據應該就是把很多開源工具組合起來安裝起來就能夠使用。但事實並不是這樣,大數據中花費最大的並不是大數據技術而是專業人才以及維護上的成本。而且在沒有經驗的情況下要把整個大數據的平台建立起來以及優化是需要花費非常大的時間以及成本。

現在有幾個架設大數據的方法從 On-premise 到 Hadoop as a service.

來源:https://www.slideshare.net/Hadoop_Summit/w-325230-cjha

在 2014 年 Hadoop summit 有人針對大數據架設費用做調查,依照以下數據處理量做計算。

經過三年後的所需成本。

在沒有算進任何其他在沒有算進任何其他風險(人力、維護等..)的情況下,三年的費用。

各類風險比例

當考慮風險時,三年內各種方案都需要至少六百萬美金以上

我們試驗看看用最小的 5 個節點 (m4 xlarge) 在 AWS ERM 上就需要 $951 一個月的費用。

所以... 維護以及建置一個大數據管理系統是非常不便宜的...。


這篇部落格先簡單介紹,五大大數據相關的誤解,之後將會在討論更多大數據更多錯誤的想法!是不是跟您想得很不一樣呢!

延伸閱讀

第二篇:十大常見大數據的誤解(二)

Share to your friends!

Subscribe our newsletter!
CannerFlow Platform
Connecting data lakes, databases, files, clouds as one data platform.
Learn More
Contact Us
Want to connect with us and talk to us? Contact us now!
Request Now