資料準備經常被援引為組織利用資料的主要障礙。而為企業取得適當的工具將有助於得到突破性的進展。
文/Thor Olavsrud 譯/Iris.Liu
欲獲得資料分析的好處,必須先理解資料準備(data preparation)。依據Gartner的研究顯示,對許多組織而言,這是一個值得留意的瓶頸,因為他們耗費了高達70% 的時間都集中在資料準備的任務上。
Gartner資料及分析小組的資深總監,亦為Gartner的資料準備工具市場指南(Market Guide for Data Preparation Tools)研究報告的主要作者Ehtisham Zaidi表示,適當的人員、及時的搜尋、存取、清理、轉換及共享資料,仍然是資料管理和分析的任務中最耗時的障礙之一。
Hitachi Vantara行銷長Jonathan Martin表示,對於那些期望透過分析以改善業務的組織來說,主要的問題往往不在於能否掌握人工智慧技術,而在於能否掌握資料工作流 (data pipeline)。
他表示,資料準備任務是最具挑戰性的工作。該如何識別出所有的資料源頭?能建立目錄結構嗎?是否能透過設計流程,以利用自動、託管及受治理的方式,將所有的資料源頭串連起來,進而在適當的時間內從適當的地方、適當的人員及適當的裝置取得所需的資料?
以下深入討論為什麼資料準備仍是顯著的分析任務的挑戰、資料準備工具又如何進化到足以處理上述的問題、以及在為企業選擇資料準備工具時應如何進行評選。
[ 下載 2020-21 CIO大調查報告,掌握最新企業IT導入趨勢 ]
資料準備的挑戰
多種因素增加了資料準備的挑戰。
第一,支援分析計劃所需的資料源頭及資料類型的數量與複雜性呈現指數級的成長。存取遍及跨越組織內部及外部的分散式資料生態系統的資料源,需要大量的時間、資源、技能與工具來完成。
IDC的資料整合及完整性軟體服務研究總監Stewart Bond表示,這是這個世代資料環境的複雜性。其存在著多樣性的資料型態,包含交易性資料、主要資料(master data)、社群媒體資料、結構化資料、非結構化資料、日誌檔資料(log file data)、以及圖形資料等。因為有著多樣性的資料,且儲存這些資料的方式,也透過不同的技術實踐。
第二,自助資料的利用及整合的請求量讓IT小組負荷過重,Zaidi繼續說明。這表示從集中化的IT模型到資料整合的功能不再管用了,Zaidi指出問題點。
他強調,IT部門需要提供適當的工具以進行資料的運用及整合,而應用的工具必須具備操作簡易與容易理解的特性。這才是促使資料準備需求逐步成長的關鍵點。
第三,資料需求仍持續變化中,如商業分析師、公民整合者(citizen integrator)、商業使用者 (line of business users)、資料工程師、以及資料科學家等,其自身的計劃都有著不同型態資料的需求。
Zaidi表示,這些情況顯示只要準備資料,就能滿足不同角色或消費者瞬息萬變的需求,是不可能的事。
新一代的資料準備工具
他補充表示,隨著資料準備工具的成熟,痛處已經完全不同了。過去的棘手之處在於應連接哪些資料源頭,以及準備哪些資料。目前有不少組織都聚焦於資料治理、歷程(lineage)、可追溯性(traceability)、以及品質。他們亦面臨著應確保擁有必需技能的適當人員,能利用資料準備工具以運用適當的資料。
綜合上述可知,這些是「資料智慧」的議題,也就是資料的中繼資料 (metadata data) 的問題。
知道資料的位置、資料的意義、誰在利用資料、資料的權限設定、為什麼擁有這些資料、資料需要保留多久、以及如何運用它,這些都是智慧(intelligence)的問題。
值得慶幸的是,資料準備工具市場正持續發展,包括解決相關問題的新功能。上一代工具僅限於支援簡單的資料轉換需求,即提供商業用戶所需的最後一哩資料準備任務;而下一代工具目前已整合共享發現結果的功能,以及與IT小組將已備妥的模型進行操作化,另外像資料編目(data cataloging)等資料管理功能,讓用戶能檢視及搜尋連接的資料資產。
Zaidi表示,某些工具還內建了進階的資料品質功能,這是上一代工具無法提供的。這些資料品質功能還包括分析(profiling)、標記(tagging)、註解(annotating)、重複資料刪除(deduplication)、模糊邏輯適配(fuzzy logic matching)、鏈接(linking)、以及合併(merging)等功能。這些功能讓IT及資料管理小組得以更輕鬆地提高品質,並確保治理及法規性,以廣泛地採用和使用已就緒的資料模型。
其中,機器學習(Machine Learning, ML)是關鍵的要素之一。以ML為基礎的功能不僅可以在準備之前自動進行資料適配、聯接、分析、標記以及註解,而且某些工具可以突顯敏感性屬性、異常值與極值,並與中繼資料管理及治理工具協同合作,以預防敏感性資料被揭露。
Zaidi進一步說明,這些機器學習強化的資料準備工具,允許不同技能水準的使用者採用資料準備,同時確保治理性和法規性。
利用資料準備工具尋找什麼
在組織評估新穎的資料準備工具時,Zaidi建議這些企業應聚焦在關鍵性功能上。而關鍵功能部份則分別說明如下所示:
- 資料擷取及分析(Data ingestion and profiling)。尋找視覺環境,也就是讓使用者得以相互擷取、搜尋、採樣、以及準備資料資產。
- 資料編目及基本的中繼資料管理(Data cataloging and basic metadata management)。工具應允許使用者進行新增及搜尋中繼資料。
- 資料建模及轉換(Data modeling and transformation)。工具應支援資料相互融合與混合、資料清理、過濾、使用者定義計算、群組、以及層次結構。
- 資料安全(Data security)。工具應包括安全性功能,例如資料遮罩(data masking)、平台驗證(platform authentication)、及使用者/群組/角色層級別的安全性過濾。
- 基本資料品質及管理支援(Basic data quality and governance support)。資料準備工具應與支援資料治理、管理及資料品質能力、使用者權限與資料歷程功能的工具整合。
- 資料強化(Data enrichment)。工具應支援基本資料的加值能力,包括個體萃取與從整合資料中抓取屬性。
- 使用者協同合作及營運化(User collaboration and operationalization)。這些工具應有助於共享查詢和資料集,包括發佈、共享、和推廣具有治理性功能的模型,例如資料集使用者評分或正式的浮水印等。
此外,Zaidi還強調應關注下列所舉的差異化功能:
- 資料源頭的存取/連接能力(Data source access/connectivity)。工具應具有API及標準式的連接能力,包括雲應用程式和資料源頭的原生存取,例如普及的資料庫PaaS和雲資料倉庫、內部資料源頭、關聯性及非結構化資料、以及非關聯性資料庫。
- 機器學習(Machine learning)。工具應支援利用機器學習AI以改善、甚至自動化資料準備過程。
- 混合及多雲部署選項(Hybrid and multi-cloud deployment options)。資料準備工具需支援雲、內部或混合整合平台設置中的部署。
- 特定領域或垂直領域的產品或樣板(Domain- or vertical-specific offerings or templates)。工具應提供特定領域或垂直領域的資料及模型的封裝樣板或產品,以加速資料準備時間。
最後Zaidi表示,必須考慮的第一件事是,你的組織將利用獨立資料準備工具,或是與供應商協作,將資料準備嵌入分析範圍更廣的分析/ BI、資料科學、或資料整合工具中。如果你擁有一般用途的使用案例,其依賴於分析、BI及資料科學工具的資料整合,如此就可以考量獨立工具。另一方面,如果只在特定平台或生態系統中的內容需要資料準備,則可以考量利用工具的嵌入式資料準備功能,或許優勢會較多。
資料準備市場概況
Gartner將資料準備工具供應商劃分為四個類別,因為資料準備功能已嵌入所有的資料管理及分析工具中,故每一種類別都處於動態變化中。
獨立的資料準備工具(Standalone data preparation tools)。該領域的供應商擅長於實作與下游流程更緊密的整合應用,例如API存取以及支援多分析/ BI、資料科學、與資料整合工具。該領域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應商的產品。
資料整合工具(Data integration tools)。這個類別的供應商擅長於資料整合及管理。其中包括Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供應商的產品。
新穎的分析和BI平台(Modern analytics and BI platforms)。這個類別的供應商擅長於資料準備,將其作為端到端分析工作流的一個部分。Zaidi表示,由於資料準備對於新穎分析和BI必不可少,使得該領域的所有供應商都將資料準備功能嵌入產品中。這個類別的供應商有Alteryx、Tableau、Cambridge Semantics、Infogix、Microsoft、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software及TMMData。
資料科學和機器學習平台(Data science and machine learning platforms)。Gartner表示,這個類別的供應商能提供資料準備功能,以作為端到端資料科學和ML流程的一個部分。代表性廠商有Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP與SAS。
除了上述的四項供應商類別外,Gartner還發現資料準備功能的新類別,包括下列敘述的平台及代表性供應商:
- 資料管理/資料湖強化平台: Informatica、Talend、Unifi 及 Zaloni。
- 資料工程平台: Infoworks。
- 資料品質工具: Experian。
- 資料整合專家: Alooma、Nexla、StreamSets 及 Striim。
[加入 CIO Taiwan 官方LINE,與全球CIO同步獲取精華見解。]
6款主流的資料準備工具
下文針對六款資料準備工具的可應用功能進行更詳細的說明。
Alteryx Designer
這個獨立資料準備工具是Alteryx Analytics及Data Science平台的一部分,意指其被視為新穎分析和BI平台中的功能,以及資料科學和機器學習平台中的功能,因而被嵌入平台中。它提供了拖放工作流分析、不需SQL語法即可進行準備及融合的資料。產品的許可授權採用年度訂閱授權模式,且依具名使用者計算授權費用。
Cambridge Semantics Anzo
Anzo是Cambridge Semantics的端到端資料發現和整合平台,故其橫跨了Gartner劃分的四種供應商類別。Anzo在既存的資料基礎架構上應用語義、圖形的資料結構層,以映射企業資料、公開資料集間的連接、啟用可視化探索及發現、與融合多資料集。Anzo是透過訂閱授權提供服務,授權費用則依核心數量及使用者數量計算。
Datameer Enterprise
Datameer Enterprise是一個資料準備及資料工程平台,屬於Gartner劃分的獨立類別。其擅長於利用精靈引導(wizard-led)的整合流程,將原始的、分散式的資料源聚集在一起,以建立單一的資料儲存。Datameer提供了類似試算表的介面,可進行點擊式及視覺探索功能。其依據計算能力或資料量對客戶收費。雲客戶則依小時計算或透過年度授權計費。
Infogix Data3Sixty Analyze
Infogix的Data 3Sixty Analyze是一款以網路為基礎(web-based)的解決方案,其由Infogix收購Lavastorm 而誕生。跟Datameer一樣,它橫跨Gartner所劃分的四種類別。Data3Sixty利用角色定義使用者。設計人員可以新增及編輯資料流,瀏覽器則僅能執行資料流,而排程可以進行新增及修改以使其自動執行。Infogix的Data3Sixty有產品訂閱授權模式的桌上型產品,也有提供永久授權及訂閱授權模式的伺服器產品。
Talend Data Preparation
Talend提供了三款資料準備工具:Talend Data Preparation(開源桌上型版本)、Talend Data Preparation Cloud(Talend Cloud平台的商業版本)、及Talend Data Preparation的另一款版本(內部部署Talend Data Fabric的商業版本)。Talend資料準備是一款獨立工具,而Talend Cloud和Talend Data Fabric是將資料準備整合為資料整合/資料管理工具中的功能的範例。Talend使用機器學習演算法進行標準化、清理、模式識別及稽核。開源版本是免費的,商業版本則依具名使用者授權的訂閱模型計價。
Trifacta Wrangler
Trifacta Wrangle是一款獨立資料準備平台,且依支援雲及內部部署計算環境的劃分而擁有不同版本。其提供了嵌入式的ML功能,可應用於推薦與其連接的資料、推論資料結構及綱要、推薦連接、定義使用者存取權限、及自動可視化探索/資料品質。Trifacta Wrangler提供免費版本;Wrangler Pro(依計算能力及使用者數計價);Wrangler Enterprise(為內部部署版本及雲版本,依計算/處理規模和使用者數計價);及Trifacta的Google Cloud Dataprep(依計算耗用量計價)。
(本文授權非營利轉載,請註明出處:CIO Taiwan)