資料科學專案失敗的八種原因

保險公司 Worldwide Assurance for Employees of Public Agencies 的資訊長 Brandon Jones 說道：「有些組織使用不止一套系統來營運業務，某些歷史悠久的公司，甚至仍然存取舊有系統來查詢或驗證資料。很多時候，商業流程會隨著系統而改變，同時使用多套系統，可能造成公司內部統計數據的流程和方法出現差異。」

Jones 表示，這種情況是資料科學失敗的主要原因。更改過的商業流程所造成的重複計算，可能會導致資料分析結果膨脹。他說：「要解決這種問題，組織必須確保資料分析計劃具有相同一致的資訊和流程，這意謂著，組織必須制定出明確時程，確認資料的有效性，並確保所有人充分瞭解並同意這是組織往後的共同標準。」

二、對於待解決的問題沒有明確定義

如果團隊成員不知道他們打算解決的商業問題是什麼，資料科學專案怎麼可能成功？這點似乎顯而易見，然而資料科學團隊被指派專案任務時，卻三不五時會遭逢這種挑戰。

網路安全公司 Kenna Security 的首席資料科學家 Michael Roytman 說道：「定義問題，經常被交付到資料科學家手上，但事實上問題的定義牽涉到商業論證（business case），它不只決定工作的範圍，也定義潛在的投資報酬率。」

醫療顧問公司 Impact Advisors 的資深顧問兼資訊長 Marc Johnson 表示，打算善用資料科學的商業用戶，必須以探索式的問題，釐清他們想要解決的問題。

Johnson 說：「如同任何專案，你必須花時間決定問題的範圍，以確定資料的正確來源。幾年前，一間 20 年歷史的公司請我協助建立一套分析產品，但是他們沒有關於客戶群的研究，不知道這項產品是否有其市場。他們也沒有任何數據證明有哪些客戶需要這種分析，一切只是根據競爭對手宣稱他們擁有分析產品，以及客戶想要這種產品的傳聞。」

Johnson 補充道，這個專案磨蹭了兩年，一直沒有明確方向，原因就出在「我們對於欲解決問題的定義模糊不清。」

三、缺乏相關資料

另一種保證資料科學失敗的因素是，未能提供解決特定問題所需的特定資料。

拋出大量的資料，不是解決辦法。

Roytman 說：「有一種假設是，龐大的資料可以帶來洞察，事實上卻不然。精良、特製化、且較小的資料集，通常更有機會造就強大的泛用模型。」

他表示，要發揮資料科學的價值，必須持續不間斷地從最相關的來源蒐集資料，他說：「創造資料來源不是一次性的事件。」

Johnson 說，當公司由不同來源蒐集或購買到資料後，團隊必須確保，對於原始資料進行的任何修改，不會扭曲分析結果或者犧牲整體資料集的品質。同時他們也必須確保資料集沒有隱私權、法律或道德上的問題。

四、缺乏資料透明度

資料科學團隊對於用在建立任何模型的資料，都必須保持公開透明的作法。

紐澤西州司法部資訊長 Jack McCarthy 說：「當人們不信任資料模型或是不瞭解解決方案時，資料科學專案就會以失敗收場。」避免這種狀況的方法是，你必須要能以簡單明瞭的方式呈現複雜的數學計算，並向可能沒有科技或統計背景的相關人士溝通說明。

資料科學家必須解釋資料的來源、資料在計算模型中的用途，並提供所有相關資料的存取管道。McCarthy 說：「公開透明是成功專案的關鍵因素。」

一個例子是紐澤西州司法部使用的風險評估演算法，McCarthy 說道：「我們提供報告給所有相關人士，呈現被告過去每個案件歸屬的類別，以及每個案件的風險評分。我們提供這些資料給所有對方當事人，讓他們有機會仔細查看每個案件並挑戰其包容程度。我們讓一切公開透明。」

五、不願承認分析結果不明確

Roytman 表示，分析結果有可能不明確、不清楚，或是精細程度未達商業應用的水準，但有時候尋求獲取洞見的商業團體或是資料科學團隊本身，不願做出分析結果不盡人意的結論。

Roytman 說：「資料模型不夠好到足以為公司創造投資報酬率，其實也是可接受而且極有價值的結論。」

Kenna Security 的資料科學團隊花了兩個月建立安全弱點分類模型，可針對特定弱點，自動列出常見的安全漏洞。Roytman 說：「這套模型有效，對於大學課程等級的題目來說，它是無懈可擊的答案。但是對我們的客戶來說，這套模型還沒有好到能為他們帶來價值，因為它的精確度太低了。因此，即使我們投入了時間，也有分析結果，最終仍決定廢棄此專案。」

六、缺乏領導階層支持

資料科學計劃需要公司高層的支持，以確保專案獲得充分的資源和支援。

Riley 說：「資訊長的支持很有幫助，我們將資料科學視為公司營運整體的一部分，我則確保自己作為這項努力的支持者。」他認為，即使資料長不是公司內部高層的資料科學擁護者，他們仍必須負責確保所有資料安全無虞，不過，資訊長在資料科學的涉入程度應遠不只安全性。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ，與全球 CIO 同步獲取精華見解 ]

Riley 說：「從蒐集的資訊當中獲取最大價值，是我所謂現代資訊長的職責。隨著手上握有的所有資料，資訊長擁有從資料當中學習與明智運用資料的工具，這是資訊長可以充分運用，協助組織各項功能的有利武器。」

Riley 提到，資料科學工作為 Adaptavist 公司帶來的最大價值在於制定新策略，以及判斷如何改變銷售流程，他說：「資料科學跟我們的產品、IT 架構或行銷都沒有關係，它最主要是從商業產品最佳化的觀點來協助我們改進，讓我們更有效地管理內部銷售。」

七、人才短缺

技術人才缺口，向來是 IT 領域許多層面的困擾，資料科學也不例外。很多組織面臨的挑戰，純粹就是沒有適當的技術人才可以維護專案或是獲取最大價值。

雲端應付帳款自動化供應商 Beanworks 的工程和資料部門資訊長 Tracy Huitika 表示：「真正的資料科學家在業界需求量很大，這些人才不易取得，而且很昂貴。這種職位通常要求具備物理或科學領域的博士學位，以及 R 和 Python 的程式撰寫能力。」

Johnson 表示，很多資料科學專案即使已達到部署階段，最後卻失敗的主要原因之一，就是缺乏能持續管理專案的營運人才。他說：「請一位傑出的資料科學家建立出模型，但沒有能夠因應市場和資料變化而作出持續改善的營運計劃，就像是造了一輛汽車，然後把車鑰匙交給十歲的小孩一樣。」

公司必須適才適所，確保資料模型在進入產品階段之後，有適當的技術人才持續維護。作法包括直接招募，或是委任給外部專家，例如精通資料科學的專業顧問。

八、資料科學不是正確解決之道

如果特定問題打從一開始就不需要以資料科學作為解決方案呢？盲目使用這門學科也會導致失敗結局，因此，值得仔細思考何時該使用資料科學方法、流程和工具，何時不需要。

Riley 說：「造成資料科學專案失敗的重大因素之一是，有時候資料科學、演算法和機器學習根本不是對的解決之道。」

他說道：「有時候你可能完全不需要機器學習模型，你需要的可能只是簡單的迴歸分析，你可以投入大量時間和精力分析各種資料排列組合，而不必用到資料科學。我們曾經遇過一個例子，當時我們研究財務資料科學模型，試圖以視覺化呈現預測公司未來財務成功的條件分析。最後我們發現，最好的方法只需要使用統計迴歸分析。」

(本文授權非營利轉載，請註明出處：CIO Taiwan)

標籤: 資料分析資料品質資料科學資料透明度

資料科學專案失敗的八種原因

2022 年 22 項全球各國政府重要的網路安全措施

伊雲谷助攻台表科1次完成 12個廠區ERP 升級

相關文章

3 大領域：企業透過生成式 AI 而獲得的生產效益

生成式 AI 應用在軟體開發領域

將生成式 AI 落地是一個移動目標

伊雲谷助攻台表科1次完成 12個廠區ERP 升級

發佈留言取消回覆

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

資訊長編列預算的煩惱與對策

線上學習：解決資料複雜度問題讓業務更成功

資策會 MIC 預測 2023 臺灣資通訊產業十大前景

促使自助式 IT 服務興起的六大新趨勢

滿足遠端辦公需求瀚錸科技力推 Evren

文章分類

熱門標籤

活動

影音

資料科學專案失敗的八種原因

一、低劣的資料品質

二、對於待解決的問題沒有明確定義

三、缺乏相關資料

四、缺乏資料透明度

五、不願承認分析結果不明確

六、缺乏領導階層支持

七、人才短缺

八、資料科學不是正確解決之道

2022 年 22 項全球各國政府重要的網路安全措施

伊雲谷助攻台表科1次完成 12個廠區ERP 升級

相關文章

發佈留言 取消回覆

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

文章分類

熱門標籤

活動

影音

發佈留言取消回覆