打造企業 AI 知識庫從高品質資料開始

地端 LLM 伺服器建置系列報導之二：資料篇

當企業導入新的 AI 助理（例如內部版 ChatGPT）時，最常被質疑的是：「為什麼 AI 回答不精準，甚至會答非所問？」這個問題往往不在 AI 模型本身，而在於餵養它的「養分」——也就是公司內部的資料。

文／許旭安

I170d17許旭安 — ◤許旭安（Bob Hsu），現任未來巢科技董事長，曾任美商 Synergies 智能科技數位轉型總監、席思人工智能學院總經理、天元數位科技共同創辦人兼執行長，持續用AI與大數據協助產業數位轉型，輔導經驗橫跨產十幾個產業，因企管自學橫跨技術背景，長年致力於科技教育，願成為非資訊背景人的科技傳教士。

想像公司內部的所有技術文件、規格手冊、客服紀錄與合約，就像一座巨大的圖書館，如果這座圖書館裡書籍堆放凌亂、沒有分類與索引，就算請來最聰明的圖書館員（AI），他也難以迅速找到正確答案。這正是許多企業的現況：知識資產沉睡在結構混亂的「資料沼澤」裡，企業導入的 AI 問答系統，目的就是讓 AI 在「資料不出公司」的前提下能讀懂這些檔案並提供精準回應，但前提是——資料必須先被整理。

因此，資料治理已不再是例行性維護，而是決定 AI 專案成敗的基石。

內容目錄 隱藏

地端 LLM 伺服器建置系列報導之二：資料篇

結論：投資高品質資料，就是投資企業的 AI 未來

什麼是「高品質資料」？

一份能讓 AI 高效吸收、準確回答的資料，應具備以下六大特徵：

準確性：內容必須正確可靠，避免 AI 讀到錯誤資訊後「自信地說謊」。
完整性：重要欄位與必要背景資訊不可缺漏，就像拼圖不能少關鍵一塊。
一致性：專業術語、日期格式、部門名稱保持統一，避免 AI 因細節差異產生混淆。
相關性：只餵給 AI 與應用場景高度相關的資料，剔除雜訊。
及時性：資訊需更新，過時內容應明確標註或移除。
安全合規：隱私與敏感資料須在前處理階段完成去識別化，確保符合法規。

這六項特徵，構成了「AI-Ready 資料」的基本門檻。

[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 IG，與全球CIO同步獲取精華見解 ]

資料品質不佳的四大風險

找錯資料，答案自然跑偏
RAG 是「先找資料，再依據資料回答」。若檢索到的段落無關或錯誤，答案自然失焦。
潛在資安風險
若在整理時未移除敏感內容，AI 可能不小心把客戶個資或合約條款回覆給不具權限的人。
AI 的「一本正經說瞎話」
當 AI 讀到錯誤資訊時，它並不會懷疑，而是「非常自信」地回覆，導致決策誤判。
硬體與模型的先天限制
企業自建 AI 系統的算力有限，更需要乾淨而高品質的資料，否則容易「小馬拉大車」。

打造「AI-Ready 資料」的五大步驟

確認目標，盤點家底（策略規劃）
˙ 明確定義 AI 要解決的問題（如客服回覆、自動文件查詢）。
˙ 盤點所有相關資料來源，如內部知識庫、共享硬碟、資料庫。
匯集資料，統一格式（資料收集與整合）
˙ 收集原始檔案，統一格式（Word、PDF、PPT）。
˙ 特別是表格，需轉換為 Markdown 或 HTML，避免資訊扭曲。
精煉內容，為 AI 劃重點（資料清洗與預處理）
˙ 移除重複與雜訊，補上缺漏資訊。
˙ 長文件切分為「知識卡片」，並加上索引標籤（來源、章節、日期）。
建立 AI 的大腦索引（向量化與儲存）
˙ 利用向量化技術（Embedding）將知識卡片轉為 AI 可快速比對的向量。
˙ 儲存於向量資料庫，並保留索引標籤。
持續考試與優化（驗證與維運）
˙ 準備「標準考卷」定期測試 AI 回答品質。
˙ 收集用戶回饋並回頭修正資料。
˙ 建立更新機制，確保知識庫即時反映最新狀態。

實務上的挑戰與解法

挑戰一：回答片段、不夠完整
˙ 問題根源：AI 只讀到被切分的單一知識點，缺乏上下文。
˙ 解法：在切分時，為每張卡片補上下層標題，保留語境。
挑戰二：聽不懂行話
˙ 問題根源：文件用正式術語，但員工習慣用縮寫或口語。
˙ 解法：
＞＞建立公司「行話字典」，將縮寫自動展開。
＞＞在知識卡片中添加「潛在問句」與關鍵字，提升檢索成功率。
挑戰三：表格內容失真
˙ 問題根源：AI 無法直接理解 PDF 或圖片表格的結構。
˙ 解法：將表格轉為 Markdown/HTML，保留行列關係。
挑戰四：需要歸納卻只給單點回答
˙ 問題根源：AI 擅長找片段，但難以跨文件歸納。
˙ 解法：為重要章節自動生成摘要，提供核心意圖。
挑戰五：誤解隱性規則
˙ 問題根源：文件中省略了約定俗成的前提（如「股票」在舊文件裡代表紙本）。
˙ 解法：在預處理階段顯性化，例如將「股票」補充為「紙本股票」。

為何資料工作常被低估？

在實務經驗中，導入 LLM 最容易被忽視的，正是資料準備。專案一開始往往聚焦在「要用哪個模型？要買多少 GPU？要走雲端還是地端？」卻少有人仔細估算過整理資料需要多少人力與時間。

真正落地後，當 AI 回答開始偏差、答非所問，企業才驚覺：「問題其實出在資料」。這時回頭補做資料清理，往往比專案初期規劃還要困難，因為已經有使用者抱怨、主管開始質疑投資效益，團隊必須一邊維護現有系統，一邊重整資料基礎。

這種「事後補洞」的代價，遠比前期投入更高，若 CIO 能在專案啟動前就將資料治理視為核心工程，很多後續的彎路其實都能避免。

結論：投資高品質資料，就是投資企業的 AI 未來

在企業導入 AI 的旅程中，最困難、卻最值得投資的就是「資料」，只有將「資料沼澤」轉化為「智慧礦山」，AI 才能真正成為企業可靠的助手。

一旦資料品質被打磨到位，AI 將從一個「能用」的工具，升級為「可靠、智能、不可或缺」的核心夥伴，今天在資料上的投入，將決定明天企業在 AI 時代的競爭優勢。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

標籤: AI 人工智慧資料治理高品質資料

打造企業 AI 知識庫 從高品質資料開始

地端 LLM 伺服器建置系列報導之二：資料篇

什麼是「高品質資料」？

資料品質不佳的四大風險

打造「AI-Ready 資料」的五大步驟

實務上的挑戰與解法

為何資料工作常被低估？

結論：投資高品質資料，就是投資企業的 AI 未來

AI 時代軟體工程師的新價值

透過 ISO 42001 規範進行 AI 與 Data 治理

相關文章

近期文章

📈 CIO點閱文章週排行

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

文章分類

熱門標籤

活動

影音

打造企業 AI 知識庫從高品質資料開始