這是一個很熱門的議題,可是不容易把它講清楚。我們分別從一些「書本的定義」來開始,看看是否可以把這些內容簡單的描述出來。
ISO20546 內所定義的 Data,原文是如此:
reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing. 如果翻譯出來應該是:以適合溝通、解釋或處理的形式化方式,對資訊進行可重新解釋的表示。這裡的關鍵字是資訊,把資訊形式化,成為適合溝通解釋或處理,可以進行重新解釋。所以此時,你可以想像:可能就畫出了一個圖形,說明過去年的銷售金額。ISO的文字雖然權威,但是不太好理解,我們參考 Jan-Willem Middelburg 先生的 Data Literacy Fundamentals 的解釋,原文說道:
Data refers to information that can be collected, stored, and analyzed. It can take many forms, such as numbers, text, images, audio, and video. 翻譯出來應該是:數據是指可以收集、儲存和分析的資訊。它可以採用多種形式,例如數字、文字、圖像、聲音和影像。所以,根據這個說法,你有沒有發現,數據很多,都在你我的身邊。人類的歷史,其實就是數據的歷史。
那麼為什麼要說是大數據呢?我們在回到 ISO20546 內的定義來看,原文說道:extensive datasets — primarily in the data characteristics of volume, variety, velocity, and/or variability — that require a scalable technology for efficient storage, manipulation, management, and analysis. 翻譯出來應該是:大量的數據集,主要體現在數據的量、種類、速度和/或易變的特性上,就需要一種可擴展的技術來進行高效的儲存、操作、管理與分析。ISO的解釋很權威,不過這裡你卻應該可以感受到,它的關鍵詞在於可擴展的技術,來滿足上述說道的 4個 V。因此,嚴格說起來,大數據這個名詞並不是指數據本身,而是處理數據的技術,這個技術應該會不斷的翻新。
如果回到歐洲 Enterprise Big Data Framework 對於大數據的解釋,原文說道:Big Data is the knowledge domain that explores the techniques, skills and technology to deduce valuable insights out of massive quantities of data. 翻譯出來應該是:大數據是使用技巧、技能和技術,從巨量數據中提煉出有價值之見解的知識領域。這裡的關鍵字應該放在知識領域,此時大數據不再像ISO的定義侷限在技術,而是泛指你可以將價值提煉出來的任何知識。
所以,數據很常見,身邊都有也很多。大數據卻不是關鍵在數據這個名詞上,而是從技術甚至到知識領域,關鍵是將價值提煉出來的任何知識領域。所以,很多人云亦云的名詞,讓我們的學習常常看不清方向。我們再回到Jan-Willem Middelburg 先生的 Data Literacy Fundamentals 的解釋:data is information that can be collected, stored, and analyzed. It can take many forms, can be primary or secondary, and can be stored and accessed in various ways. Data is an important resource that can be used to make informed decisions, identify patterns and trends, and generate new insights. 翻譯出來應該是:數據是可以收集、儲存和分析的資訊。它可以有多種形式,也可以是原始數據或是二手數據,並且可以透過多種方式儲存和存取。數據是一種重要的資源,可用於做出明智的決策、識別模式和趨勢以及產生新的見解。所以,你該看得出來:明智的決策、識別模式和趨勢,新的見解,都是目前商業上的渴望,所以,關鍵的下一步是:你該怎麼去做到?
ChatGPT 曾經這樣回答:
人類需要數據是因為數據是一種有用的資訊資源,可以幫助人類瞭解和掌握世界上發生的事情和事物的特性。數據可以用來揭示模式和趨勢,幫助人們做出更好的決策和預測未來的情況。預測,其實就是現在許多商業價值的重點。關鍵還是老話一句?你該怎麼去做到?
從數據、大數據,到產生價值,是一個團隊的、企業內、過程的,有目標的一步步向前的工程。不可能一步登天,也不可能僅靠一套技術或是工具。所以,我們總是說:你要有數據、要能夠分析,並且要善用技術工具。這是一個過程,而不是某個產品可以給你完整的價值。學習是不二法門,學習方法更是一個捷徑,藉此來看清自己的定位。世界進步的如此迅速,看清楚方向而後行動,對你來說才是真正的無價。因為人才本是企業的基礎!
附帶說明:Jan-Willem Middelburg 先生的 Data Literacy Fundamentals 的書籍翻譯為繁體中文的工作已經大致完成。我們在等歐洲的同意,看用甚麼方式可以分享給台灣的大家。謝謝。