這其實是很簡單的概念。利用幾個英文字就把大數據的特性,說明清楚。比方說:第一,每天都產生了170萬個 TB (1.7EB) 的數據量,就是很大、很多,因此談論 Volume。第二,每秒有57.8萬筆訂單進入系統需要處理,就是很快,快到不行,因此談論Velocity。第三,再也不是整齊定義的數據格式,各種奇怪的數據格式都必須要處理,所以談到結構化與非結構化的定義,因此談論 Variety。
為了支持前面三個V的現象,因此電腦架構必須要有所變化,傳統的系統架構可能無法支持,也不可以再用產品來思考架構,所以大家都知道有了分散式架構。可是,分散式架構的設計該如何進行?因此,有了參考架構的參考。當然,「參考架構」這個名詞不是專門用在這裡,可是,大數據架構的設計也確實有了自己的參考架構,這就是 ISO20547。
第四個 V,後來引起了一些分歧。根據 ISO20546 的定義:第四個V還是Variability 中文可以解釋為「差異性」。也就是說,因為第三個 V,導致大數據的數據形式有各種各樣,為了應付這各種各樣,因此,就會有各種各樣的演算法誕生,或是不同的運算方法,或是架構的調整,等等的各式各樣的變化,來應付第三個 V 所產生出來的各式各樣的種類。
不過,如果參考 企業大數據框架 的定義。第四個 V 是指:Veracity。大家都知道,大數據本身就是可能包含很多雜音,因此,數據處理時,對於數據的完整性和準確性,也就是數據的品質,必須要相當關注,關注之後,數據才可能被充分的信任。這第四 個V,Veracity,如果回到 ISO20546 的話,是被歸類在 4.3.3 關鍵數據的處理特性。
為什麼會有如此的不同?簡單的說,企業大數據框架的著眼點就是在企業,我們也常常的在說:無論是大數據,或是數據科學,展現價值的場域絕對是在企業。如果你的數據結果不被信任,請問如何做到數據驅動的目標?數據要被信任,你認為很簡單嗎?才不呢,你難道不知道現在很多組織,時不時還要手工調整數據,能被信任嗎?無論是國際標準也好,還是國際上的最佳實踐,其實都已經默默的在告訴你,你不看書不學習,當然你不會知道這其中的各種關鍵。