採訪/施鑫澤·文/林裕洋
Databricks的Lakehouse 與 Data Intelligence Platform,將資料湖的彈性與資料倉儲的管理能力結合,協助企業在單一平台上完成資料收集、整合、分析與 AI 模型部署,是企業實現 AI 願景的最佳幫手。
在生成式 AI 技術的浪潮下,企業面臨挑戰不再只是「是否要導入 AI」,而是「是否準備好迎接 AI」,才能在產業中保有領先優勢。綜觀現今許多企業發展 AI 過程中,都會遇到「資料分散於不同平台」、「資料治理不足」、「模型無法順利進入生產環境」等共通瓶頸,甚至長期停留在概念驗證(PoC)階段,關鍵在於資料基礎建設不夠成熟。
為此,Databricks 推出的 Lakehouse 與 Data Intelligence Platform,正逐漸成為企業數位轉型與 AI 落地過程中的重要平台。截至目前為止,交通運輸、金融服務、大型製造業等,均開始運用 Databricks 整合資料、強化治理,進而加速 AI 模型開發。
Databricks 台灣暨香港業務總經理呂欣育指出,過去企業談 AI 專案時,多半先從模型能力、演算法準確度著手。但是隨著開源大型語言模型隨手可得,且基本能力大致上都有 90% 的水準,產業才逐漸意識到模型不是問題,重點在能否正確且有效運用企業內部的資料,才是推動 AI 專案成功主因。
他表示,目前臺灣企業通常面臨以下情況,如「資料散落在不同系統、部門或雲端平台」、「同一份資料存在多個版本、格式不一致」、「資料倉儲成本高且擴充性不足」、「在跨部門的資料存取與治理上缺乏統一架構」、「資料無法支援生成式 AI 所需的向量化與高速查詢」等問題。
Lakehouse 融合兩大功能,快速整合多項資料
前述種種問題造成企業推動 AI 專案阻力倍增,雖然可打造 AI 模型,往往陷入「做得出來但放不進去」、「示範成功但無法量產」等困境。
Databricks 將資料湖的彈性與資料倉儲的管理能力結合,協助企業在單一平台上完成資料收集、整合、分析與 AI 模型部署。該公司擁有 Delta Lake、MLflow 以及 Unity Catalog 等多項核心技術,可強化企業在大資料處理、模型訓練與資料治理上的效率。隨著生成式 AI 興起,Databricks 正加速佈局 AI 模型訓練與推理,透過收購 MosaicML 擴大其在企業級 AI 平台市場的影響力。
傳統資料倉儲在 BI 報表時代曾經扮演重要角色,但面對企業跨平台資料整合與 AI 訓練需求,其應用能力不足問題也已逐漸浮現。目前許多企業對該技術的痛點,大致上有「既有資料倉儲不再足以支撐 AI」、「資料湖雖便宜但治理能力不足」、「多雲環境讓資料更加碎片化」等等。
生成式 AI 帶來需求已全面超越傳統資料倉儲能力,AI 專案成功核心不是模型,而是資料整備程度,包括「資料乾淨度」、「可追溯性」、「權限控管」、「可向量化能力」、「查詢效能」、「大規模非結構化資料支援」等。
[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 linkedin,與全球CIO同步獲取精華見解 ]

呂欣育表示,Databricks Lakehouse 同時結合資料湖與資料倉儲優點,可讓企業達成「單一資料來源」、「支援即時與批次處理」、「低成本儲存大量原始資料」、「高度彈性與跨雲能力」、「Native 支援機器學習與 AI」等,讓企業用統一平台解決最頭痛的資料與 AI 的整合問題。
Data Intelligence Platform 亮相,專為生成式 AI 設計
Databricks支援 AI、非結構化資料與向量運算,因此比只支援 BI 報表的資料倉儲更能符合理想的生成式 AI 基礎架構,定位已從「資料工程工具」進化為完整的 Data Intelligence Platform。
Databricks Data Intelligence Platform 涵蓋多項功能,首先可強化資料品質基礎的 Delta Lake 與 Delta Live Tables。Delta Lake 幫助企業建立可追溯、可靠、版本化、支援 ACID 的資料層,使資料不再「越用越亂」。而 Delta Live Tables 進一步提供自動化 ETL、錯誤回復、資料健康監控等能力。
其次,企業推動 AI 專案最常見挑戰並非沒有資料,多半因為在缺乏權限管理、稽核、版本控管、資料譜系等制度,資料在跨部門共享時常引發風險疑慮。Unity Catalog 讓資料治理從技術層落實到組織層。第三點是 AI 不該只停留在 PoC,而是要能持續訓練、部署與監控。Databricks 提供完善的 MLOps 工具,可讓模型從實驗到部署等有一致流程,降低模型維運成本。
「生成式 AI 模型落地之後,需要一套良好的資料向量化、RAG 架構與模型調教工具等,才能提供所需的推論服務。」呂欣育解釋:「Databricks 的企業級向量資料庫與 Mosaic AI 工具鏈,可避免發生模型幻覺、資料外洩等疑慮,讓企業能安全地使用內部資料打造客製化 AI。」
落實資料治理,啟動 AI 專案最大助手
生成式 AI 浪潮來襲下,企業是否能掌握 AI 專案的關鍵,不在於模型大小,而在於資料是否準備好。而 Databricks 在臺灣市場快速累積案例的關鍵,正在於企業對資料基礎建設的迫切需求。
呂欣育建議,企業應該從三大面向著手推動 AI 專案,首先是「資料治理優先於 AI 模型」,團隊應先建立 Data Catalog、權限控管與資料譜系,再推動 AI 才能長久安全運作。其次是「建立標準化的 AI 流程」,運用 Feature Store、MLflow 與 CI/CD 等功能,讓 AI 可複製、可維護、可監控。最後「GenAI 先從小規模試點開始」,以文件搜尋、客服輔助、內部知識庫等場景先行,逐步擴展到核心業務。
整體來說,企業推動 AI 專案關鍵,在於需要一套能統一資料與 AI 能力的平台,而 Databricks 的 Lakehouse 與 Data Intelligence Platform,正逐漸成為企業邁向 AI 世代的重要基礎。
(本文授權非營利轉載,請註明出處:CIO Taiwan)















