大數據與數據能力

吳傑
5 min readAug 12, 2021

--

網路的圖

數據為什麼會大?在台灣有人甚至說這個名詞是:巨量資料。不論是大,或是巨量,已故的陳昇瑋先生有過一個形容:以前的電視29吋已經很大了,現在的電視60吋可能還不夠大,因為關鍵是資訊科技的發展。確實啊,資訊科技的發展,已經超越了日新月異的感覺,因為發展的太快了。那麼,數據為什麼會「大」呢?大小其實不是關鍵,關鍵是在於你是否能夠掌握?如果你能夠掌握處理,並且對於你與你們的業務產生價值,這才算是有效。所以,數據量很大、數據產生的很快、數據種類的多樣性 ( 大數據的特性 ),就成為你或是你們是否能夠掌握與處理的議題,因為牽涉到相關的技術。關鍵是:有技術能處理還不一定能夠發生價值,這才是令人沮喪與討厭的問題。

我先引用 ISO20546 Introduction 的第三句話來看這個問題:

The term big data is overloaded in common usage and is used to represent a number of related concepts, in part because several distinct system dimensions are consistently interacting with each other. To understand this revolution, the interplay of the following aspects needs to be considered: the data and processing characteristics of the datasets, the analysis of the datasets, the performance of the systems that handle the data, the business considerations of cost effectiveness, and the new engineering and analysis techniques for distributed data processing using horizontal scaling.

大數據一詞,在常見的用法中已經超載了,被用來代表一些相關的概念,部分原因是幾個不同的系統維度在不斷地相互影響。為了理解這場革命,需要考慮以下幾個方面的相互作用:數據集的數據和處理特點、數據集的分析、處理數據的系統性能、成本效益的商業考慮,以及使用水平擴展的分散式數據處理的新工程和分析技術。

這些概念,其實是針對資訊工程的領域來說的。也就是說:數據量很大、數據產生的很快、數據種類的多樣性,造成傳統的電腦系統架構可能會無法有效處理!因為你的電腦系統最起碼的要求是不能當機,然後還要有足夠的效能來處理這些龐大快速多樣的數據,最終還要顧忌到:成本效益的商業考量。所以,在 ISO20546 的 3.1.2 中說道:

Big Data, Characteristics of volume, variety, velocity, and/or variability — that require a scalable technology for efficient storage, manipulation, management, and analysis

大數據:有關於數量、種類、速度和/或可變性等。需要一種可擴展的技術來進行有效的儲存、操作、管理和分析。

事實上,我們知道,上述的資訊技術只能搭起一個平台,這個平台的好壞,就如同你搭捷運去上班上學是一樣的道理。天天使用,似乎是理所當然的方便安全與快速。可是,一旦故障,你就會深深的感到不方便。我想,也因為如此,資料科學的興起,就不會難以理解了。可是,你應該發現:各行各業,不僅僅是資訊工程,都會 關注資料科學,或者是說:關注大數據!為什麼,答案還是前面說的:你要的是大數據後面給你的各種價值

數據的價值,其實人類一直都很關注。就在二十多年前,將近三十年前,我工作的單位,常常幫助研究人員把轉盤式磁帶內的數據,讀出來交給他們進行許多領域的研究。當時,電腦或許不是那麼方便使用,但是,很多電腦軟體,或是自己寫程式,分析表格式的數據,幾乎都是天天發生的工作。現在,電腦很方便,運算速度的提升,數據還是依然被人類關心,希望能夠提前看到隱藏在背後的價值。

Enterprise Big Data Framework 所定義的 Big Data 就比較貼切於現在的企業環境中,他們說道:

Big Data is the knowledge domain that explores the techniques, skills and technology to deduct valuable insights out of massive quantities of data.

大數據是使用技巧(techniques)、技能(skills)和技術(technology),從巨量數據中提煉出有價值之見解的知識領域(knowledge domain)。

所以,如果你看懂這一個定義,你會知道這是一個龐大的知識領域!你必須要從技巧、技能與技術等三個方面來進行自我的規劃學習。技巧,可能需要時間的淬鍊。技能,無論是軟技能與硬技能,你都要思考練就,Enterprise Big Data Framework 有定義 六大技能,你可以參考看看。技術,就不必多說了,資訊技術,如果可以,盡可能的多多學習,因為,這將是你的各種工具。工具必須要利用時間與興趣,進行上述說道的時間淬鍊,才會有技巧。

所以,我們一再說,學習技術不是壞事,可是,你不可能將所有的技術學到身上,你需要一套方法,幫助你看清你自己的環境與現況,決定你的方向,然後建構你的數據能力,最後才能有機會把數據的價值給發揮出來,為自己與團隊贏得更多效益。

--

--

吳傑
吳傑

Written by 吳傑

耳順之年,致力推廣 Enterprise Big Data Framework & BCS AI certifications 於台灣。照片當然是數多年前的。呵。

No responses yet