在 ISO20546 的 Introduction 中說道:
The term big data is overloaded in common usage and is used to represent a number of related concepts, in part because several distinct system dimensions are consistently interacting with each other.
大數據這個詞,在常見的用法中已經被超載了,被用來代表一些相關的概念,( 但是為什麼會超載呢?) 部分的原因是幾個不同的系統維度一直在相互作用。( 應該是說不同領域的名詞,大家不求甚解,沒有充分思考 )
這應該就是很多人看到大數據,或說是資料科學,多半說不清楚的原因,因為很多人云亦云,而忘記了名詞深入所需要代表的意義。
這段話後面還有一些文字很需要注意:
To understand this revolution, the interplay of the following aspects needs to be considered: the data and processing characteristics of the datasets, the analysis of the datasets, the performance of the systems that handle the data, the business considerations of cost effectiveness, and the new engineering and analysis techniques for distributed data processing using horizontal scaling.
為了理解這場革命,需要考慮以下幾個方面的相互作用:①數據集的數據和運算特性、②數據集的分析、③處理數據的系統效能、④成本效益的商業考慮,以及⑤使用水平擴展的分散式數據處理的新工程和分析技術。
先忽略資料科學領域要看的分析與解析的動作。這五項內容在數據工程的領域內,都牽涉到成本效益與系統性能的相互作用,還要符合商業利益。因此,橫向擴展的有效與高效似乎就是一種關鍵行為。
橫向擴展也被稱為水平擴展。意思其實很簡單:如果在一套系統內,添加了硬體與軟體,這套系統的效能就應該會提升。也就是說:夠用就好,不夠用再加。甚麼又是夠用呢?商業利益來決定吧。這說穿了,就是分散式系統的縮影。什麼又是分散式系統呢?想看看你去銀行櫃檯,如果大家都擠在一個櫃台,那就很擠,如果一次有五個櫃台同時作業,你就可能覺得很快。類似的道理,應該不難理解吧。再比方說,高速公路,大家都擠上去就塞車了,所以啊,交通部都鼓勵大家:長途走國道,短途走省道。這也是分散的策略。
事實上,一旦數據量很大,數據產生很快,數據的型態又是各種各樣的,傳統的集中式系統一定會面臨瓶頸。就像是上面說到:一個櫃台來應付所有的作業,一定會有瓶頸,也會很慢。如果能夠根據業務需求與架構能力等,進行橫向擴展,確保符合業務的系統架構,應該不是夢想,也因為橫向擴展,調整升級也應該很快。反過來說,因為分散式系統,資料科學所處的數據分析技術與方法,是否需要變化?這就是國際標準告訴你的方向,應該就是你要思考的未來趨勢。