• 登入
  • 註冊網站會員
CIO Taiwan
  • 活動
  • 影音
  • 趨勢分析
  • CIO IT經理人雜誌
  • CSO精選
  • 電子報
  • 下載
  • 聯繫我們
沒有結果
查看所有結果
CIO Taiwan
沒有結果
查看所有結果
首頁 精選文章

資料準備工具 - 資料分析策略的秘密武器

2021-01-06
分類 : 精選文章
0
A A
0
Hand holding virtual global network with business icons such as

資料準備經常被援引為組織利用資料的主要障礙。而為企業取得適當的工具將有助於得到突破性的進展。

文/Thor Olavsrud 譯/Iris.Liu


欲獲得資料分析的好處,必須先理解資料準備(data preparation)。依據Gartner的研究顯示,對許多組織而言,這是一個值得留意的瓶頸,因為他們耗費了高達70% 的時間都集中在資料準備的任務上。

Gartner資料及分析小組的資深總監,亦為Gartner的資料準備工具市場指南(Market Guide for Data Preparation Tools)研究報告的主要作者Ehtisham Zaidi表示,適當的人員、及時的搜尋、存取、清理、轉換及共享資料,仍然是資料管理和分析的任務中最耗時的障礙之一。

Hitachi Vantara行銷長Jonathan Martin表示,對於那些期望透過分析以改善業務的組織來說,主要的問題往往不在於能否掌握人工智慧技術,而在於能否掌握資料工作流 (data pipeline)。

他表示,資料準備任務是最具挑戰性的工作。該如何識別出所有的資料源頭?能建立目錄結構嗎?是否能透過設計流程,以利用自動、託管及受治理的方式,將所有的資料源頭串連起來,進而在適當的時間內從適當的地方、適當的人員及適當的裝置取得所需的資料?

以下深入討論為什麼資料準備仍是顯著的分析任務的挑戰、資料準備工具又如何進化到足以處理上述的問題、以及在為企業選擇資料準備工具時應如何進行評選。

[ 下載 2020-21 CIO大調查報告,掌握最新企業IT導入趨勢 ]

資料準備的挑戰

多種因素增加了資料準備的挑戰。

第一,支援分析計劃所需的資料源頭及資料類型的數量與複雜性呈現指數級的成長。存取遍及跨越組織內部及外部的分散式資料生態系統的資料源,需要大量的時間、資源、技能與工具來完成。

IDC的資料整合及完整性軟體服務研究總監Stewart Bond表示,這是這個世代資料環境的複雜性。其存在著多樣性的資料型態,包含交易性資料、主要資料(master data)、社群媒體資料、結構化資料、非結構化資料、日誌檔資料(log file data)、以及圖形資料等。因為有著多樣性的資料,且儲存這些資料的方式,也透過不同的技術實踐。

第二,自助資料的利用及整合的請求量讓IT小組負荷過重,Zaidi繼續說明。這表示從集中化的IT模型到資料整合的功能不再管用了,Zaidi指出問題點。

他強調,IT部門需要提供適當的工具以進行資料的運用及整合,而應用的工具必須具備操作簡易與容易理解的特性。這才是促使資料準備需求逐步成長的關鍵點。

第三,資料需求仍持續變化中,如商業分析師、公民整合者(citizen integrator)、商業使用者 (line of business users)、資料工程師、以及資料科學家等,其自身的計劃都有著不同型態資料的需求。

Zaidi表示,這些情況顯示只要準備資料,就能滿足不同角色或消費者瞬息萬變的需求,是不可能的事。

新一代的資料準備工具

他補充表示,隨著資料準備工具的成熟,痛處已經完全不同了。過去的棘手之處在於應連接哪些資料源頭,以及準備哪些資料。目前有不少組織都聚焦於資料治理、歷程(lineage)、可追溯性(traceability)、以及品質。他們亦面臨著應確保擁有必需技能的適當人員,能利用資料準備工具以運用適當的資料。

綜合上述可知,這些是「資料智慧」的議題,也就是資料的中繼資料 (metadata data) 的問題。

知道資料的位置、資料的意義、誰在利用資料、資料的權限設定、為什麼擁有這些資料、資料需要保留多久、以及如何運用它,這些都是智慧(intelligence)的問題。

值得慶幸的是,資料準備工具市場正持續發展,包括解決相關問題的新功能。上一代工具僅限於支援簡單的資料轉換需求,即提供商業用戶所需的最後一哩資料準備任務;而下一代工具目前已整合共享發現結果的功能,以及與IT小組將已備妥的模型進行操作化,另外像資料編目(data cataloging)等資料管理功能,讓用戶能檢視及搜尋連接的資料資產。

Zaidi表示,某些工具還內建了進階的資料品質功能,這是上一代工具無法提供的。這些資料品質功能還包括分析(profiling)、標記(tagging)、註解(annotating)、重複資料刪除(deduplication)、模糊邏輯適配(fuzzy logic matching)、鏈接(linking)、以及合併(merging)等功能。這些功能讓IT及資料管理小組得以更輕鬆地提高品質,並確保治理及法規性,以廣泛地採用和使用已就緒的資料模型。

其中,機器學習(Machine Learning, ML)是關鍵的要素之一。以ML為基礎的功能不僅可以在準備之前自動進行資料適配、聯接、分析、標記以及註解,而且某些工具可以突顯敏感性屬性、異常值與極值,並與中繼資料管理及治理工具協同合作,以預防敏感性資料被揭露。
Zaidi進一步說明,這些機器學習強化的資料準備工具,允許不同技能水準的使用者採用資料準備,同時確保治理性和法規性。

利用資料準備工具尋找什麼

在組織評估新穎的資料準備工具時,Zaidi建議這些企業應聚焦在關鍵性功能上。而關鍵功能部份則分別說明如下所示:

  • 資料擷取及分析(Data ingestion and profiling)。尋找視覺環境,也就是讓使用者得以相互擷取、搜尋、採樣、以及準備資料資產。
  • 資料編目及基本的中繼資料管理(Data cataloging and basic metadata management)。工具應允許使用者進行新增及搜尋中繼資料。
  • 資料建模及轉換(Data modeling and transformation)。工具應支援資料相互融合與混合、資料清理、過濾、使用者定義計算、群組、以及層次結構。
  • 資料安全(Data security)。工具應包括安全性功能,例如資料遮罩(data masking)、平台驗證(platform authentication)、及使用者/群組/角色層級別的安全性過濾。
  • 基本資料品質及管理支援(Basic data quality and governance support)。資料準備工具應與支援資料治理、管理及資料品質能力、使用者權限與資料歷程功能的工具整合。
  • 資料強化(Data enrichment)。工具應支援基本資料的加值能力,包括個體萃取與從整合資料中抓取屬性。
  • 使用者協同合作及營運化(User collaboration and operationalization)。這些工具應有助於共享查詢和資料集,包括發佈、共享、和推廣具有治理性功能的模型,例如資料集使用者評分或正式的浮水印等。

此外,Zaidi還強調應關注下列所舉的差異化功能:

  • 資料源頭的存取/連接能力(Data source access/connectivity)。工具應具有API及標準式的連接能力,包括雲應用程式和資料源頭的原生存取,例如普及的資料庫PaaS和雲資料倉庫、內部資料源頭、關聯性及非結構化資料、以及非關聯性資料庫。
  • 機器學習(Machine learning)。工具應支援利用機器學習AI以改善、甚至自動化資料準備過程。
  • 混合及多雲部署選項(Hybrid and multi-cloud deployment options)。資料準備工具需支援雲、內部或混合整合平台設置中的部署。
  • 特定領域或垂直領域的產品或樣板(Domain- or vertical-specific offerings or templates)。工具應提供特定領域或垂直領域的資料及模型的封裝樣板或產品,以加速資料準備時間。

最後Zaidi表示,必須考慮的第一件事是,你的組織將利用獨立資料準備工具,或是與供應商協作,將資料準備嵌入分析範圍更廣的分析/ BI、資料科學、或資料整合工具中。如果你擁有一般用途的使用案例,其依賴於分析、BI及資料科學工具的資料整合,如此就可以考量獨立工具。另一方面,如果只在特定平台或生態系統中的內容需要資料準備,則可以考量利用工具的嵌入式資料準備功能,或許優勢會較多。

資料準備市場概況

Gartner將資料準備工具供應商劃分為四個類別,因為資料準備功能已嵌入所有的資料管理及分析工具中,故每一種類別都處於動態變化中。

獨立的資料準備工具(Standalone data preparation tools)。該領域的供應商擅長於實作與下游流程更緊密的整合應用,例如API存取以及支援多分析/ BI、資料科學、與資料整合工具。該領域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應商的產品。

資料整合工具(Data integration tools)。這個類別的供應商擅長於資料整合及管理。其中包括Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供應商的產品。

新穎的分析和BI平台(Modern analytics and BI platforms)。這個類別的供應商擅長於資料準備,將其作為端到端分析工作流的一個部分。Zaidi表示,由於資料準備對於新穎分析和BI必不可少,使得該領域的所有供應商都將資料準備功能嵌入產品中。這個類別的供應商有Alteryx、Tableau、Cambridge Semantics、Infogix、Microsoft、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software及TMMData。

資料科學和機器學習平台(Data science and machine learning platforms)。Gartner表示,這個類別的供應商能提供資料準備功能,以作為端到端資料科學和ML流程的一個部分。代表性廠商有Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP與SAS。

除了上述的四項供應商類別外,Gartner還發現資料準備功能的新類別,包括下列敘述的平台及代表性供應商:

  • 資料管理/資料湖強化平台: Informatica、Talend、Unifi 及 Zaloni。
  • 資料工程平台: Infoworks。
  • 資料品質工具: Experian。
  • 資料整合專家: Alooma、Nexla、StreamSets 及 Striim。

[加入 CIO Taiwan 官方LINE,與全球CIO同步獲取精華見解。]

6款主流的資料準備工具

下文針對六款資料準備工具的可應用功能進行更詳細的說明。

Alteryx Designer

這個獨立資料準備工具是Alteryx Analytics及Data Science平台的一部分,意指其被視為新穎分析和BI平台中的功能,以及資料科學和機器學習平台中的功能,因而被嵌入平台中。它提供了拖放工作流分析、不需SQL語法即可進行準備及融合的資料。產品的許可授權採用年度訂閱授權模式,且依具名使用者計算授權費用。

Cambridge Semantics Anzo

Anzo是Cambridge Semantics的端到端資料發現和整合平台,故其橫跨了Gartner劃分的四種供應商類別。Anzo在既存的資料基礎架構上應用語義、圖形的資料結構層,以映射企業資料、公開資料集間的連接、啟用可視化探索及發現、與融合多資料集。Anzo是透過訂閱授權提供服務,授權費用則依核心數量及使用者數量計算。

Datameer Enterprise

Datameer Enterprise是一個資料準備及資料工程平台,屬於Gartner劃分的獨立類別。其擅長於利用精靈引導(wizard-led)的整合流程,將原始的、分散式的資料源聚集在一起,以建立單一的資料儲存。Datameer提供了類似試算表的介面,可進行點擊式及視覺探索功能。其依據計算能力或資料量對客戶收費。雲客戶則依小時計算或透過年度授權計費。

Infogix Data3Sixty Analyze

Infogix的Data 3Sixty Analyze是一款以網路為基礎(web-based)的解決方案,其由Infogix收購Lavastorm 而誕生。跟Datameer一樣,它橫跨Gartner所劃分的四種類別。Data3Sixty利用角色定義使用者。設計人員可以新增及編輯資料流,瀏覽器則僅能執行資料流,而排程可以進行新增及修改以使其自動執行。Infogix的Data3Sixty有產品訂閱授權模式的桌上型產品,也有提供永久授權及訂閱授權模式的伺服器產品。

Talend Data Preparation

Talend提供了三款資料準備工具:Talend Data Preparation(開源桌上型版本)、Talend Data Preparation Cloud(Talend Cloud平台的商業版本)、及Talend Data Preparation的另一款版本(內部部署Talend Data Fabric的商業版本)。Talend資料準備是一款獨立工具,而Talend Cloud和Talend Data Fabric是將資料準備整合為資料整合/資料管理工具中的功能的範例。Talend使用機器學習演算法進行標準化、清理、模式識別及稽核。開源版本是免費的,商業版本則依具名使用者授權的訂閱模型計價。

Trifacta Wrangler

Trifacta Wrangle是一款獨立資料準備平台,且依支援雲及內部部署計算環境的劃分而擁有不同版本。其提供了嵌入式的ML功能,可應用於推薦與其連接的資料、推論資料結構及綱要、推薦連接、定義使用者存取權限、及自動可視化探索/資料品質。Trifacta Wrangler提供免費版本;Wrangler Pro(依計算能力及使用者數計價);Wrangler Enterprise(為內部部署版本及雲版本,依計算/處理規模和使用者數計價);及Trifacta的Google Cloud Dataprep(依計算耗用量計價)。

(本文授權非營利轉載,請註明出處:CIO Taiwan)

這篇文章對您有幫助嗎?
👍👎
上一篇文章

建立民間資訊智庫 急不可待

下一篇文章

解決金融資安問題 看好區塊鏈發展

相關文章

網頁文章首圖1200x630
精選文章

CIO 容易疏忽的優先順序 ─ 確保資安預算來源

2022-05-18
1200-AdobeStock_121730718
精選文章

從五大方向尋找蘊藏於雲端的價值

2022-05-13
資料長的五項重要技能與特質
精選文章

資料長的五項重要技能與特質

2022-05-11
下一篇文章
1200-黃啟誠-17

解決金融資安問題 看好區塊鏈發展

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

📈 CIO點閱文章週排行

  • robot ai

    AI最常見的應用有哪些?

    0 分享
    分享 0 Tweet 0
  • 明鏡為鑒:10個數位轉型成功案例

    0 分享
    分享 0 Tweet 0
  • CISO 角色的探討

    0 分享
    分享 0 Tweet 0
  • 【專訪】臺北榮民總醫院資訊室主任郭振宗

    0 分享
    分享 0 Tweet 0
  • 資料長的五項重要技能與特質

    0 分享
    分享 0 Tweet 0
  • 2022年度CIO大調查報告下載

    0 分享
    分享 0 Tweet 0
  • 疫情意外加速全球寵物經濟發展

    0 分享
    分享 0 Tweet 0
  • 成功創建NFT品牌代幣的關鍵

    0 分享
    分享 0 Tweet 0
  • 從五大方向尋找蘊藏於雲端的價值

    0 分享
    分享 0 Tweet 0
  • 什麼是CSO?其首要職責與條件是什麼?

    0 分享
    分享 0 Tweet 0

追蹤我們的 Facebook

透過行動條碼加入

數位及平面

  • CIO Taiwan 網站
  • CIO 電子報
  • 《CIO IT經理人》數位版雜誌 (Zinio)
  • 《CIO IT經理人》平面雜誌

關注社群

  • Line 加入好友
  • Facebook 粉絲頁

合作夥伴

  • CIO協進會
  • CIO.com

關於我們

  • 關於我們
  • 隱私權政策

旗訊科技股份有限公司 | 100 台北市中正區杭州南路一段15-1號19樓 | TEL: 886-2-2321-4335

Copyright© Flag Information Co.,Ltd. All Rights Reserved.

  • 登入
  • 註冊
沒有結果
查看所有結果
  • 活動
  • 影音
  • 最新文章
  • 產業速報
  • 新聞速寫
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 專欄
  • 精選文章
  • 原生現場
  • 供應商視野
  • 線上調查
  • CIO IT 經理人雜誌
  • 電子報
  • 下載
  • 聯繫我們

© 2020 CIO Taiwan 版權所有

CIO Taiwan 歡迎你回來!

可用 使用者名稱 或 Email 登入

忘記密碼 註冊

歡迎註冊 CIO Taiwan 網站會員

請設定 Email 及 使用者名稱(使用者名稱不接受中文、將來無法更改)

欄位皆為必填 登入

找回密碼

請輸入 使用者名稱 或 Email 以重設密碼

登入

您已閒置超過 3 分鐘了,為您推薦其他文章!點擊空白處、ESC 鍵或關閉回到網頁

1200_C3A3434

Check Point:因應「新常態」後的資安挑戰

第十屆金融CIO高峰會夏季場 因應「新常態」後的IT型態與資安挑戰,莫過於遠距辦

1200-Aaron-1

Fortinet:運用新世代EDR 強化端點防護

InfoSec Taiwan 2020 會後報導 因應攻擊手法多元化,資安專家在

Small Brave Goldfish With Shark Fin Costume Leading Others  - Le

未來IT領導者的四大重要特質

頂尖資訊長們表示,在動盪混亂的時代,可以確定的是:以往成功的方法已經不管用。 文

臺北榮民總醫院與SAS攜手「即時血液透析人工智慧預判系統」合作儀式。

北榮發展AI再進化 預判洗腎病患風險

在AI醫療領域有豐碩成果的臺北榮總,日前最新發表的即時血液透析人工智慧預判系統,

1200-technology-5917370

商用人工智慧十大趨勢

隨著商用 AI 快速發展成熟,許多企業組織也轉向業務優先的 AI 策略,也在公司

1200-Fig01

橙鋐引進多元資安產品 對抗惡意程式威脅

橙鋐科技致力於資安設備代理與銷售通路建立,橫跨金融、電信、政府、製造、醫療、教育

ciotaiwan-logo-600-white

文章分類

  • 產業速報
  • 專欄
  • 影音
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 原生現場
  • 精選文章
  • 趨勢分析
  • 供應商視野
  • 新聞速寫
  • 下載
  • Sponsors

熱門標籤

  • 最新文章
  • 雲端運算
  • 人工智慧
  • 數位轉型
  • 製造業
  • 物聯網
  • 資料與分析
  • 資安
  • 區塊鏈
  • 5G
  • 儲存
  • 基礎架構

活動

  • CIO價值學院
  • 企業防疫與持續營運計畫 線上座談會
  • 亞太CIO線上高峰論壇
  • 製造業CIO論壇
  • 金融CIO高峰會
  • Asia Leadership Forum 2020
  • 智慧醫療研討會
  • 商業服務科技論壇
  • CIO大調查

影音

  • 影音