分析,似乎你天天都在做,這也好像是很簡單的工作,市場上面也推出很多會畫圖的電腦軟體,似乎,畫出美美的圖就說:我會分析?難道,真的是這樣嗎?我們今天不解釋書上的定義,來思考一下你的分析到底該如何進行呢?
做任何事情一定要思考你的方向,分析也是一樣。你總是要思考一下:你分析的目標是什麼?比方說,你的目標出來之後,你的下一步通常是研究現況,知道現況之後,才有可能做什麼事情來調整與優化,設法將現況與目標的差距拉近一點。我們假設,如果公司要分析師研究一下如何提升30%的業績,你該怎麼做?
很自然的,你的第一個階段,就是需要先呈現現況。所以,剛剛說的那些畫圖軟體,你都會用到。因為,你的行動就是要收集各方面的數據,比方說財務數據、銷售數據、市場的數據,可能還有一些網站的數據等等,盡可能多的數據,來呈現現況到底是什麼?我們稱之為:描述型的分析。當然,數據的收集、清理、運算,然後呈現,你都必須要經歷。
然後,第二個階段,此時的你可能已經擁有了許多圖表。從圖表中,你一定會發現一些你感興趣的趨勢或是現象。你可能聽說過 EDA 探索型數據分析!這時候,利用你已經有的各種圖表,找出你感興趣的變量,然後研究變量自身的分佈情況與變量之間的關係,這些都是你該有的基礎功。
接著,第三個階段,你如果需要開始驗證 EDA 的一些方向是可行的,統計推論裡面有一些方法可以幫助你。你要知道,任何的數據實驗都需要花費成本。EDA 可能只有給你一些蛛絲馬跡。你可能要利用某些樣本數據來進行你數據母體的一種推論。然後,驗證你的分析方向是正確的。
剛才,我們的假設是公司的業績如何提升30%。經過了三種階段:從現象、探索到推論成立後,你可能已經想像到一些可能的行動,這些行動會提升公司的業績。比方說,你發現溫度會影響銷售,你可能也發現油價會影響生產。這些變量之間的關係,一旦確認之後,你可以試試看利用手邊的大量數據來進行預測。預測的演算法就很多了,盡量去算看看就是了。
預測當然會有誤差,久而久之,你會思考為什麼?因果型的研究,因為你會想知道為什麼?原因是什麼?其實不容易做到,更尤其是利用統計方面的知識來驗證其因果。知道因果之後,人類總是思考是否可以改變最後的結果?比方說,投入多少預算來做廣告,可以提升多少業績? 這類的機理型研究,就比因果的研究還來得更複雜。
不論如何,從各種現象的收集與整理,然後探索發現變量與其之間的關聯,然後做出高性價比的實驗:利用樣本來推論數據母體,最後可以進行某些預測,找到可行的方向。這四個階段,身為數據分析師的你,如果都能夠掌握,那絕對可以得到公司老闆需要的答案:公司的業績如何提升30%。此時的你,難過的是缺少數據,至於畫出那美美的圖,只是一個小小的關鍵而已。這整套的方法,其實就是 Enterprise Big Data Analyst 要跟你說的內容。