這是兩個經常聽到的名詞。關鍵是,你能分辨出這兩個名詞的相同點與不同點嗎?如果你分辨不出來,或是不清楚,請問你如何定位自己?如何學習呢?
我先利用 2020 年雙11購物節後,阿里巴巴公布的數據來讓你思考一下。第一組數據,有關於訂單的峰值,每秒達到58.3萬筆,非常的快速,似乎意味著最多的時候,每秒有58.3萬的用戶在敲訂單。第二組數據,每日處理的數據量有1.7個EB。1個EB的量等於100萬個TB,所以,1.7 個 EB 就等於170萬個 TB。然而阿里巴巴,2020年雙11購物節總共有11天,你自己可以計算看看他們的數據量,算是相當龐大。第三組數據,他們共錄得的4982億人民幣的成交金額,比起2019年成長了26%。
上面的三組數據看完,你應該思考:峰值每秒58.3萬筆訂單,每天170 萬個 TB 的數據量,為什麼沒有當機?電腦系統完成處理如此高速的數據,完成儲存如此大量的數據,系統沒有當機,順利運作,所以達成了4982億人民幣的成交金額。這是大數據的能力,也是資訊工程的能力。
每天都有 170 萬個 TB 的數據量。請問你會不會拿來應用?阿里巴巴是電商,一定會分析客戶的行為,一定會分析商品的趨勢,數據量巨大,因此用來做某些預測的動作也是有可能的。這是資料科學的行為。你想到了嗎?
大數據的能力,牽涉到資訊工程,需要有能力處理高速與大量的數據。資料科學就要專注於前面所收集下來的數據,找出數據後面所隱藏的價值。寫到這裡,彼此的合作與不同,我相信你大概可以體會出來。也許你會問:我們公司的數據量不可能那麼多?是的,所以你可以使用你的筆記型電腦,利用你的表格軟體,專注在資料科學的領域內,包含數據分析的能力,不是嗎?
所以,如果你不是資訊工程背景的人士,你的重點就可以放在數據分析!從業務目標的分解、數據該如何獲取、數據該如何整理,然後應用統計與機器學習的模型來進行分析,最後呈現出來?這個過程,無論你是用什麼工具?Excel?PowerBI 或是 python 還是 R 都好,關鍵是你的場景可能是在企業內?你該如何做呢?或是你們該如何去做?如果你是資訊工程背景的人士,分散式系統的參考架構,你是不是該去研究看看?
這是一個龐大的知識領域 ( knowledge domain ),如果你看不清楚,你可能就無法定位自己的學習。人類之所以制定大數據國際標準,也是有這層的意義。ISO20546 談的是大數據的概念,ISO20547 談的是大數據參考架構。而我們利用這些知識,寫成一本《大數據國際認證先修課程》電子書,放在 讀墨 與 Google Book 上,希望你可以透過簡單的故事,理解這些知識,找到自己的定位與方向。