資料科學或許是解決商業問題最熱門的工具,但是未經深思熟慮、有缺陷的資料科學專案,可能對企業造成重大傷害,並導致錯誤決策。
文/Bob Violino‧譯/曾祥信
如今,資料科學總能引起科技和商業等領域領導者的興趣,但是資料科學未必保證成功。
事實上,資料科學專案 ─ 那些使用科學方法、流程、演算法和科技系統,從結構化與非結構化資料當中獲取洞察的專案 ─ 可能因為各種原因而失敗,導致時間、金錢及其他資源的浪費。有缺陷的專案會使決策者偏離正軌,對企業造成的傷害更甚於其好處。
以下是資料科學專案無法如預期成功的最常見因素。
一、低劣的資料品質
品質低落的資料,會導致差勁的資料科學分析,因此花時間確保資料的高品質,極其重要。這點適用於任何正在進行中的數據分析專案,對於資料科學更是無庸置疑。
數位轉型顧問公司 Adaptavist 資訊長 Neal Riley 說:「糟糕或受污染的資料,讓資料科學專案變成不可能的任務。你必須確保資料純淨無瑕,適合進行資料分析,否則,這一切完全只是浪費時間。」
Riley 表示,當企業在資料科學專案中使用不潔淨的資料時,很可能會導致他們「研究產生怪異結果的資料模型,並認為這套模型無法以正面方式反映現實或流程。」
[ 2023年企業IT投資重點為何?資安、人才、ESG如何部署?下載 CIO大調查報告 立即揭曉! ]
有時候,資料的品質低劣,是因為資料集當中的偏見或不一致。
保險公司 Worldwide Assurance for Employees of Public Agencies 的資訊長 Brandon Jones 說道:「有些組織使用不止一套系統來營運業務,某些歷史悠久的公司,甚至仍然存取舊有系統來查詢或驗證資料。很多時候,商業流程會隨著系統而改變,同時使用多套系統,可能造成公司內部統計數據的流程和方法出現差異。」
Jones 表示,這種情況是資料科學失敗的主要原因。更改過的商業流程所造成的重複計算,可能會導致資料分析結果膨脹。他說:「要解決這種問題,組織必須確保資料分析計劃具有相同一致的資訊和流程,這意謂著,組織必須制定出明確時程,確認資料的有效性,並確保所有人充分瞭解並同意這是組織往後的共同標準。」
二、對於待解決的問題沒有明確定義
如果團隊成員不知道他們打算解決的商業問題是什麼,資料科學專案怎麼可能成功?這點似乎顯而易見,然而資料科學團隊被指派專案任務時,卻三不五時會遭逢這種挑戰。
網路安全公司 Kenna Security 的首席資料科學家 Michael Roytman 說道:「定義問題,經常被交付到資料科學家手上,但事實上問題的定義牽涉到商業論證(business case),它不只決定工作的範圍,也定義潛在的投資報酬率。」
醫療顧問公司 Impact Advisors 的資深顧問兼資訊長 Marc Johnson 表示,打算善用資料科學的商業用戶,必須以探索式的問題,釐清他們想要解決的問題。
Johnson 說:「如同任何專案,你必須花時間決定問題的範圍,以確定資料的正確來源。幾年前,一間 20 年歷史的公司請我協助建立一套分析產品,但是他們沒有關於客戶群的研究,不知道這項產品是否有其市場。他們也沒有任何數據證明有哪些客戶需要這種分析,一切只是根據競爭對手宣稱他們擁有分析產品,以及客戶想要這種產品的傳聞。」
Johnson 補充道,這個專案磨蹭了兩年,一直沒有明確方向,原因就出在「我們對於欲解決問題的定義模糊不清。」
三、缺乏相關資料
另一種保證資料科學失敗的因素是,未能提供解決特定問題所需的特定資料。
拋出大量的資料,不是解決辦法。
Roytman 說:「有一種假設是,龐大的資料可以帶來洞察,事實上卻不然。精良、特製化、且較小的資料集,通常更有機會造就強大的泛用模型。」
他表示,要發揮資料科學的價值,必須持續不間斷地從最相關的來源蒐集資料,他說:「創造資料來源不是一次性的事件。」
Johnson 說,當公司由不同來源蒐集或購買到資料後,團隊必須確保,對於原始資料進行的任何修改,不會扭曲分析結果或者犧牲整體資料集的品質。同時他們也必須確保資料集沒有隱私權、法律或道德上的問題。
四、缺乏資料透明度
資料科學團隊對於用在建立任何模型的資料,都必須保持公開透明的作法。
紐澤西州司法部資訊長 Jack McCarthy 說:「當人們不信任資料模型或是不瞭解解決方案時,資料科學專案就會以失敗收場。」避免這種狀況的方法是,你必須要能以簡單明瞭的方式呈現複雜的數學計算,並向可能沒有科技或統計背景的相關人士溝通說明。
- 【製造業】DS Smith 數位轉型融合永續發展與雲端科技
- 在生成式 AI 供應商選擇過程中權衡風險與報酬
- 【醫療業】臺中榮總、陽明交通大學研發 Healthcare GPT 成功,降低醫護人力荒新利器
資料科學家必須解釋資料的來源、資料在計算模型中的用途,並提供所有相關資料的存取管道。McCarthy 說:「公開透明是成功專案的關鍵因素。」
一個例子是紐澤西州司法部使用的風險評估演算法,McCarthy 說道:「我們提供報告給所有相關人士,呈現被告過去每個案件歸屬的類別,以及每個案件的風險評分。我們提供這些資料給所有對方當事人,讓他們有機會仔細查看每個案件並挑戰其包容程度。我們讓一切公開透明。」
五、不願承認分析結果不明確
Roytman 表示,分析結果有可能不明確、不清楚,或是精細程度未達商業應用的水準,但有時候尋求獲取洞見的商業團體或是資料科學團隊本身,不願做出分析結果不盡人意的結論。
Roytman 說:「資料模型不夠好到足以為公司創造投資報酬率,其實也是可接受而且極有價值的結論。」
Kenna Security 的資料科學團隊花了兩個月建立安全弱點分類模型,可針對特定弱點,自動列出常見的安全漏洞。Roytman 說:「這套模型有效,對於大學課程等級的題目來說,它是無懈可擊的答案。但是對我們的客戶來說,這套模型還沒有好到能為他們帶來價值,因為它的精確度太低了。因此,即使我們投入了時間,也有分析結果,最終仍決定廢棄此專案。」
六、缺乏領導階層支持
資料科學計劃需要公司高層的支持,以確保專案獲得充分的資源和支援。
Riley 說:「資訊長的支持很有幫助,我們將資料科學視為公司營運整體的一部分,我則確保自己作為這項努力的支持者。」他認為,即使資料長不是公司內部高層的資料科學擁護者,他們仍必須負責確保所有資料安全無虞,不過,資訊長在資料科學的涉入程度應遠不只安全性。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
Riley 說:「從蒐集的資訊當中獲取最大價值,是我所謂現代資訊長的職責。隨著手上握有的所有資料,資訊長擁有從資料當中學習與明智運用資料的工具,這是資訊長可以充分運用,協助組織各項功能的有利武器。」
Riley 提到,資料科學工作為 Adaptavist 公司帶來的最大價值在於制定新策略,以及判斷如何改變銷售流程,他說:「資料科學跟我們的產品、IT 架構或行銷都沒有關係,它最主要是從商業產品最佳化的觀點來協助我們改進,讓我們更有效地管理內部銷售。」
七、人才短缺
技術人才缺口,向來是 IT 領域許多層面的困擾,資料科學也不例外。很多組織面臨的挑戰,純粹就是沒有適當的技術人才可以維護專案或是獲取最大價值。
雲端應付帳款自動化供應商 Beanworks 的工程和資料部門資訊長 Tracy Huitika 表示:「真正的資料科學家在業界需求量很大,這些人才不易取得,而且很昂貴。這種職位通常要求具備物理或科學領域的博士學位,以及 R 和 Python 的程式撰寫能力。」
Johnson 表示,很多資料科學專案即使已達到部署階段,最後卻失敗的主要原因之一,就是缺乏能持續管理專案的營運人才。他說:「請一位傑出的資料科學家建立出模型,但沒有能夠因應市場和資料變化而作出持續改善的營運計劃,就像是造了一輛汽車,然後把車鑰匙交給十歲的小孩一樣。」
公司必須適才適所,確保資料模型在進入產品階段之後,有適當的技術人才持續維護。作法包括直接招募,或是委任給外部專家,例如精通資料科學的專業顧問。
八、資料科學不是正確解決之道
如果特定問題打從一開始就不需要以資料科學作為解決方案呢?盲目使用這門學科也會導致失敗結局,因此,值得仔細思考何時該使用資料科學方法、流程和工具,何時不需要。
Riley 說:「造成資料科學專案失敗的重大因素之一是,有時候資料科學、演算法和機器學習根本不是對的解決之道。」
他說道:「有時候你可能完全不需要機器學習模型,你需要的可能只是簡單的迴歸分析,你可以投入大量時間和精力分析各種資料排列組合,而不必用到資料科學。我們曾經遇過一個例子,當時我們研究財務資料科學模型,試圖以視覺化呈現預測公司未來財務成功的條件分析。最後我們發現,最好的方法只需要使用統計迴歸分析。」
(本文授權非營利轉載,請註明出處:CIO Taiwan)