就如同產品,如果沒有品質而言,那就會發生問題。類似的概念,數據也需要有品質。在當今的商業活動中,數據影響著企業做出的每一個決策,從產品開發到供應鏈管理再到成本效益的分析。不能理解和管理數據品質可能會造成重大的法律、財務和聲譽的風險,最後會限制企業創新和發展的能力。如果再把人工智慧的因素放入進去,簡而言之,利用品質不良的數據來訓練演算法,就如同獲得不良的業務結果,這是顯而易見的。當今大多數企業都想依賴數據,數據驅動!他們自己的數據加上從外面獲得的數據,業務領導者會需要一種經過衡量的方法來提高數據品質。
可是,對於任何組織來說,品質的定義是不相同的。所有品質的概念都是與組織內部的策略與運作密切相關,因為它必須要取決於每個公司的業務目標和相關運作。世界經濟組織的報告曾經提到,就人工智慧環境下,數據品質通常指某特定數據集的準確性、完整性、一致性、時效性、唯一性和有效性等六項條件,如下:
準確性(Accuracy) — 數據正確無誤的程度。
完整性(Completeness) — 數據的完整程度。
一致性(Consistency) — 數據的一致,遵循相同的標準和規則的程度。
有效性(Validity) — 數據有效的程度,遵守為數據定義的業務規則和約束。
時效性(Timeliness) — 數據在多大程度上是當前且最新的。
唯一性(Uniqueness) — 數據唯一和不與現有數據重複的程度。
還有,在任何特定的環境中,高品質數據的實際意義將取決於組織的需求和所涉及的具體案例。目的的適用性(Fitness for purpose)是指數據是否能夠代表了你正在訓練的人工智慧使用了適當的群體、市場或因素,完整代表你的案例。因為你不會想使用亞洲市場數據訓練的某服務演算法來分析歐洲市場。這樣的做法,模型一定無法有效運作。
看到上面的文字,其實你需要馬上的回應自己:企業的數據收集不是從今天開始到未來,而是從過去已經開始了。所以,數據溯源(Data Provenance) 的這一個議題馬上要跳入你的思考。數據溯源是指數據的來源、處理和過程的完整歷史,有助於確保數據的真實性、可靠性和可信度。數據溯源必須要提供有關數據產生者、產生的時間、收集的位置、收集的方式、處理人員以及處理方式的資訊。這些資訊很重要,因為它可以讓使用者了解數據的背景和品質。這裡的關鍵是,過去的歷史數據集可能反映某些歷史上偏差,產生的原因很多,可能是技術、資源、考慮不周全等等。而利用這些數據集來訓練的人工智慧將會使這些偏差一直保存在下去。你要如何識別與避免?就是數據溯源相關的概念。
所以,完成上述的工作相當重要,這些工作可以確保我們擁有豐富、完整的數據,避免偏差的發生,產生一個負責任的人工智慧環境。因此,就問:該怎麼做呢?這就是我說的:很多人知道喝酒不能開車,但是總是做不到。理論似乎很簡單,但是如何開始呢?這不是技術的議題,而是管理的議題。將會影響成敗的議題,卻是很多人忽略的議題。數據管理與數據治理,絕對是未來企業面臨的巨大議題。如果要將人工智慧的結果發生效益,這個議題,你是無法迴避的。不過,面對這項議題之前,學習相關的知識與理論,充實自己。絕對是你需要自我努力的一項課題。
數據素養基礎繁體中文版已經翻譯好了,利用電子書的方式,在 讀墨 與 Google Book 上架,歡迎你去參考。課程 也準備要上線了,相關的 錄影,還有 課程資訊,請點擊參考。