企業大數據科學家 Enterprise Big Data Scientist (EBDS) 的核心知識手冊,已經在月前翻譯完畢,感謝楊小姐、陳先生的協助,翻譯過程非常的順利。
EBDS 作為 大數據國際認證 (Enterprise Big Data Certifications) 來說,這是 Business Track 的頂級認證。在 Business Track 的系列中,從 Enterprise Big Data Professional (EBDP) 基礎認證開始,然後再來 Enterprise Big Data Analyst (EBDA) 進階認證,最後才可以到達 EBDS 的頂級認證。根據 APMG International 的政策規定,很抱歉,你不可以越級打怪,你必須要接受過相關的培訓後,才得以參加考試。相關的 課程介紹 與 書籍介紹,請點擊相關的網頁參考。
上述的設計,是一套非常完整的系統。我們常說,數據能力絕對不是單純的資訊技術能力,數據能力需要整合自身或是團隊的技術技能與軟性技能。因此,歐洲設計了企業大數據框架 (Enterprise Big Data Framework, EBDF),利用框架來展現上述三類職務角色的具體能力描述。EBDS 的能力描述,如下圖所示。EBDP 的能力描述 與 EBDA 的能力描述,請分別點擊參考。
如果你關注過我們,你應該知道,企業大數據框架是一項很先進的
設計,它由六項核心能力,擴展到三十項微觀能力,然後再輔以成熟度度量的方式,藉此驗證你或是你們的數據能力。因此,框架相關的基礎知識,包含在 EBDP 課程中,通過認證考試者,就被稱為:Professional (專業者)。
然後,進階的 EBDA 。它的能力設計就在於整體的數據分析能力。分析是流程,無論你如何設計你的分析流程,從頭到尾的能力,一點都不能少。因此,你可能在很多簡報或是書面資料內看到,我們會把分析的流程,在 EBDA 課程中,整體的,帶著學員操練一遍。因此,通過認證考試者,就被稱為:Analyst (分析師)。
然後,你可能要走入高階的 EBDS。EBDS 的能力描述,上面的圖,你應該看到了。我們用一個簡單的定義來說:企業大數據科學家 (Enterprise Big Data Scientist) 的能力,必須要能夠設計與佈署演算法,關注於業務未來的價值。這裡的關鍵字:演算法、設計與佈署、未來的價值,也就是:預測。
翻開這一本 EBDS 手冊,馬上感受到無比的壓力!這其中大概有三點:①python 是這門課程的工具:在EBDA課程時,我們利用 R 當作工具。如果你不會寫程式,不曾用過 R,沒關係。程式碼給你,會用、會看結果,就可以幫你解決問題,立刻實戰。未來 EBDS 也應該會有這樣的效果。
②數學的概念無法避免:數學與統計學絕對是核心概念。不過,如果要把整個數學都說得很清楚,課會上不完。因此,原則上,可能是依據 EBDA 的方式:會用、會看結果,因此,可以立刻實戰。深入的數學計算等,以後慢慢再研究。
③看不到一個很完整的方法學習:這是很頭痛的問題。為什麼呢?因為 EBDP 是藉由框架知識來扎根自己的大數據知識基礎,成為專業人士。EBDA 是利用整個分析流程來實戰,因此可以掌握整個分析流程而成為分析師。那麼,EBDS 是利用甚麼呢?我下面來解釋。
EBDS 手冊的第三單元,開始談進階的機器學習。我們從這裡開始看:機器學習的管道 (machine learning pipeline,或說是機器學習的流程),在這本書上,寫有九個步驟:數據收集和準備、數據預處理、特徵工程、模型選擇、模型訓練、模型評估、模型調整、模型部署與模型維護。這九個步驟,如果你稍微有概念的話,大概就可以想像出,為什麼我要說壓力了。我舉例來說:
- 特徵工程:這裡的內容已經可以編輯成一本書的情況下,也有很多人把特徵工程獨立為一套流程,任何有關於選擇最相關的特徵,用於模型,轉換特徵,更合適任務的作為,可能多少都需要理解。
- 模型選擇:無論是監督式、非監督式,還有生成式,加上深度學習。大概多少都要操練一番。估計這裡的 Labs 會很多。
- 模型訓練、模型評估、模型調整:每一種模型,都有自己的一套操作。從找到最佳參數集,預測輸出與實際輸出差異最小,然後評估評估模型泛化(generalize),等等。
- 模型部署:所以這本書還是要跟你談分散式系統。
- 模型維護:始終如一的可靠。更新數據可能需要更新模型。領域的新知。安全與隱私、法規要求。所以,這本書要跟你談:視覺化、溝通,還有相關的應用等等。
上述是利用機器學習的管道來看 EBDS,是否完備?是否精準?這不是官方的說法,只是我的一點心得。目前 APMG International 還沒有發布課本與考試,所以,我們只能透過這本書上的內容來思考。未來,應該還有可能因為侷限於的課程範圍設計或是課程時間的壓力,所有的內容,可能會有深淺差別的考慮。所以,我想說的:EBDS 的內容相當的多,可以想像比 EBDA 的內容還多,課程的壓力,勢必更大!如果你是 EBDA 的認證學員,你可以先想像一下。不過,EBDF 的作者期許這一本書是:度量「資料科學家」能力的「黃金標準」。這也就是說:通過這一個認證,你不僅可以展現出你是具有資料科學家的能力,更同時展現出你自身努力的學習與不鬆懈的精神。不要放棄,行動才有機會創造價值,希望在 未來的教室 看到你。