地端 LLM 伺服器建置系列報導之二:資料篇
當企業導入新的 AI 助理(例如內部版 ChatGPT)時,最常被質疑的是:「為什麼 AI 回答不精準,甚至會答非所問?」這個問題往往不在 AI 模型本身,而在於餵養它的「養分」——也就是公司內部的資料。
文/許旭安

想像公司內部的所有技術文件、規格手冊、客服紀錄與合約,就像一座巨大的圖書館,如果這座圖書館裡書籍堆放凌亂、沒有分類與索引,就算請來最聰明的圖書館員(AI),他也難以迅速找到正確答案。這正是許多企業的現況:知識資產沉睡在結構混亂的「資料沼澤」裡,企業導入的 AI 問答系統,目的就是讓 AI 在「資料不出公司」的前提下能讀懂這些檔案並提供精準回應,但前提是——資料必須先被整理。
因此,資料治理已不再是例行性維護,而是決定 AI 專案成敗的基石。
什麼是「高品質資料」?
一份能讓 AI 高效吸收、準確回答的資料,應具備以下六大特徵:
- 準確性:內容必須正確可靠,避免 AI 讀到錯誤資訊後「自信地說謊」。
- 完整性:重要欄位與必要背景資訊不可缺漏,就像拼圖不能少關鍵一塊。
- 一致性:專業術語、日期格式、部門名稱保持統一,避免 AI 因細節差異產生混淆。
- 相關性:只餵給 AI 與應用場景高度相關的資料,剔除雜訊。
- 及時性:資訊需更新,過時內容應明確標註或移除。
- 安全合規:隱私與敏感資料須在前處理階段完成去識別化,確保符合法規。
這六項特徵,構成了「AI-Ready 資料」的基本門檻。
[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 IG,與全球CIO同步獲取精華見解 ]
資料品質不佳的四大風險
- 找錯資料,答案自然跑偏
RAG 是「先找資料,再依據資料回答」。若檢索到的段落無關或錯誤,答案自然失焦。 - 潛在資安風險
若在整理時未移除敏感內容,AI 可能不小心把客戶個資或合約條款回覆給不具權限的人。 - AI 的「一本正經說瞎話」
當 AI 讀到錯誤資訊時,它並不會懷疑,而是「非常自信」地回覆,導致決策誤判。 - 硬體與模型的先天限制
企業自建 AI 系統的算力有限,更需要乾淨而高品質的資料,否則容易「小馬拉大車」。
打造「AI-Ready 資料」的五大步驟
- 確認目標,盤點家底(策略規劃)
˙ 明確定義 AI 要解決的問題(如客服回覆、自動文件查詢)。
˙ 盤點所有相關資料來源,如內部知識庫、共享硬碟、資料庫。 - 匯集資料,統一格式(資料收集與整合)
˙ 收集原始檔案,統一格式(Word、PDF、PPT)。
˙ 特別是表格,需轉換為 Markdown 或 HTML,避免資訊扭曲。 - 精煉內容,為 AI 劃重點(資料清洗與預處理)
˙ 移除重複與雜訊,補上缺漏資訊。
˙ 長文件切分為「知識卡片」,並加上索引標籤(來源、章節、日期)。 - 建立 AI 的大腦索引(向量化與儲存)
˙ 利用向量化技術(Embedding)將知識卡片轉為 AI 可快速比對的向量。
˙ 儲存於向量資料庫,並保留索引標籤。 - 持續考試與優化(驗證與維運)
˙ 準備「標準考卷」定期測試 AI 回答品質。
˙ 收集用戶回饋並回頭修正資料。
˙ 建立更新機制,確保知識庫即時反映最新狀態。
實務上的挑戰與解法
- 挑戰一:回答片段、不夠完整
˙ 問題根源:AI 只讀到被切分的單一知識點,缺乏上下文。
˙ 解法:在切分時,為每張卡片補上下層標題,保留語境。 - 挑戰二:聽不懂行話
˙ 問題根源:文件用正式術語,但員工習慣用縮寫或口語。
˙ 解法:
>> 建立公司「行話字典」,將縮寫自動展開。
>> 在知識卡片中添加「潛在問句」與關鍵字,提升檢索成功率。 - 挑戰三:表格內容失真
˙ 問題根源:AI 無法直接理解 PDF 或圖片表格的結構。
˙ 解法:將表格轉為 Markdown/HTML,保留行列關係。 - 挑戰四:需要歸納卻只給單點回答
˙ 問題根源:AI 擅長找片段,但難以跨文件歸納。
˙ 解法:為重要章節自動生成摘要,提供核心意圖。 - 挑戰五:誤解隱性規則
˙ 問題根源:文件中省略了約定俗成的前提(如「股票」在舊文件裡代表紙本)。
˙ 解法:在預處理階段顯性化,例如將「股票」補充為「紙本股票」。
為何資料工作常被低估?
在實務經驗中,導入 LLM 最容易被忽視的,正是資料準備。專案一開始往往聚焦在「要用哪個模型?要買多少 GPU?要走雲端還是地端?」卻少有人仔細估算過整理資料需要多少人力與時間。
真正落地後,當 AI 回答開始偏差、答非所問,企業才驚覺:「問題其實出在資料」。這時回頭補做資料清理,往往比專案初期規劃還要困難,因為已經有使用者抱怨、主管開始質疑投資效益,團隊必須一邊維護現有系統,一邊重整資料基礎。
這種「事後補洞」的代價,遠比前期投入更高,若 CIO 能在專案啟動前就將資料治理視為核心工程,很多後續的彎路其實都能避免。
結論:投資高品質資料,就是投資企業的 AI 未來
在企業導入 AI 的旅程中,最困難、卻最值得投資的就是「資料」,只有將「資料沼澤」轉化為「智慧礦山」,AI 才能真正成為企業可靠的助手。
一旦資料品質被打磨到位,AI 將從一個「能用」的工具,升級為「可靠、智能、不可或缺」的核心夥伴,今天在資料上的投入,將決定明天企業在 AI 時代的競爭優勢。
(本文授權非營利轉載,請註明出處:CIO Taiwan)