Enterprise Big Data Engineer 的譯後心得

吳傑
Jan 27, 2025

--

數據(Data)是什麼?根據定義,數據是指可以收集、儲存和分析的資訊。人類自古以來就是在處理數據,比方說清代盛極一時的「日昇昌」票號幾乎壟斷當時的金融服務,再比方說美國的「雙子星計畫」,1965年至1966年間共有10次載人飛行。這兩項東西方的案例,在當時都沒有所謂的「數位電腦」,可是所形成的結果絕對影響後世。春秋時代的吳越爭霸,據說越王勾踐親嘗吳王夫差的糞便來判定病情,這雖是政治權謀之舉,可是現在的醫生,不需要親嘗病人的糞便就可以判定病情!因為,工具的演進與相應的流程,使得人類已經越來越掌握數據背後的價值,可以為人類謀取福利。

回到今天來看,Google Search 大概也有近30年了。各位在你閱讀這篇文章時,你不可能沒有這方面的使用經驗。我們假設一下:未來企業中,每一位員工或是團隊,如果為了解決業務上的問題,或是進行優化,都可以在企業的授權下,利用企業內類似Google Search的工具,找到相關的數據,自行的進行分析與研究,當然在企業內找到的數據集必須是有品質的等等。這樣的組織,有一個名詞稱之為數據民主(Data Democracy)。這應該是數據驅動型組織再往前進的一個境界!因為這裡,企業內的員工不僅是有意識,還有相應的文化,更重要的是具備有數據能力,而配合如此境界的架構,人們稱之 Data Fabric。

從上面的兩段話來看,讀者大概就能夠理解到人類對於數據的處理,因藉著工具,越來越有效與高效的處理下,數據後的價值,將會更快、更有效與更細緻的被尋找出來。更何況,數據還是人工智慧的基礎!這樣的基礎讓我們的經驗被記住、分析,並作為形成新解決方案的基礎,如此這樣的循環是越來越快。你說,人類的進步,難道不會更快嗎?來自各方的競爭力,將會是越來越強大!

翻譯中文版的目錄

這本書,從最早結構化的數據處理,比方說關聯式資料庫的 SQL 開始,進入到非結構化數據的處理,各式各樣的 NoSQL資料庫。這只是儲存的基本。從傳統的 ETL 也談到 Data Pipeline,當然少不了要談串流與批次,還有混合。談各式各樣的數據架構,包含上述的 Data Fabric,還有你看過的雲端的各式各樣,也要談特徵儲存與模型佈署,因為這是數據工程師的職責。最後,基本的安全、隱私,還是數據品質等概念,都包含在內。這本書,將來也是免費供應給 Enterprise Big Data Professional 的學員閱讀。如果你有興趣要獲取這一項 國際認證,也是必須要 先上課考試,獲取 EBDP 的國際認證。

--

--

吳傑
吳傑

Written by 吳傑

耳順之年,致力推廣 Enterprise Big Data Framework & BCS AI certifications 於台灣。照片當然是數多年前的。呵。

No responses yet