硬體到底要怎麼選，才能「不花冤枉錢」？

地端 LLM 導入系列報導之四：採購建置篇

在企業導入地端大型語言模型時，CIO 最常問的問題其實只有一句話：「我們要建內部 LLM 系統，到底要買什麼樣的硬體，才能確保軟體真的跑得動，又能撐得住未來使用量？」

文／許旭安（未來巢科技董事長）

I170d17許旭安 — ◤許旭安（Bob Hsu），現任未來巢科技董事長，曾任美商 Synergies 智能科技數位轉型總監、席思人工智能學院總經理、天元數位科技共同創辦人兼執行長，持續用AI與大數據協助產業數位轉型，輔導經驗橫跨產十幾個產業，因企管自學橫跨技術背景，長年致力於科技教育，願成為非資訊背景人的科技傳教士。

針對當前最熱門，想要在企業內部建置 LLM 系統，該怎樣規劃預算，會有哪些層面需要考量，這個問題看似單純，其實牽涉到四個層次的判斷：需求、模型、架構、治理。

內容目錄 隱藏

地端 LLM 導入系列報導之四：採購建置篇

真正該買的不是「最強機器」，而是「最能支撐目標的系統」

你到底想讓 LLM 做什麼？

硬體選錯的根本原因，不是算力不夠，而是需求沒釐清。
在挑硬體之前，請先把這幾個問題問自己：

你要跑的是哪種應用？
○ 如果只是內部搜尋、問答、摘要，重點在即時性與穩定性。
○ 如果要結合多系統資料（如 ERP、CRM、知識庫），就需要更大的記憶體與儲存吞吐量。
要服務多少人？
○ 不同部門、不同時間段的同時查詢量，才是規劃基準。
○ 不需預測精確數字，只要界定「單機能支撐的尖峰狀況」與「何時要擴充」即可。
機器會是 LLM 專用，還是要共用？
若 GPU 也會被其他應用（如影像分析、數據視覺化、其他 AI 工具）使用，就要事先區分資源分配與調度權限。特別是在同時有多個應用並行（共現性高）的情境下，即使是小模型，也可能需要預留比模型本身更大的 GPU 記憶體作為快取空間。因此，預先規劃 GPU 的使用與排程，是確保系統穩定運作的關鍵。

模型要「剛好會用」

過去企業容易以為，「模型越大、答案越好」。但實務上，模型規模應該根據應用情境和實際需求精準配對，而非一味追求最大。

[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 linkedIn，與全球CIO同步獲取精華見解 ]

首先，要先釐清業務問題本身的複雜度與所需語意深度。
● 大多數企業內部的知識問答、文件彙整、報表生成等場景，所需的模型水準還有準確率要求都不同，需要先評估怎樣可滿足合理場域需求。
● 在選擇模型時，還需注意商業授權與開源條款，不同模型家族（如 LLaMA、Qwen、Mistral 等）即使是同品牌不同尺寸，其授權條款、商業使用及再分發權限都可能不同。
● 建議以「足夠支撐需求、容易持續維護、資料治理能跟上」為原則，用「以目標回應品質與體驗反推所需模型」，再經小規模實測驗證，而不是盲目上最大型號。

硬體要從「整體架構」來思考

▪GPU 是主角，但不是全部

它決定模型能不能載入、能不能在合理時間回應，但效能的瓶頸往往在別處——記憶體不夠、磁碟太慢、CPU 處理 Token 時塞車，都是常見原因，而開發到一半才發現 GPU 的 VRAM 的不足更是常實務上發生的問題。

▪CPU 與記憶體的角色

每一次提問、搜尋、文字轉換，其實都先經過 CPU。

若 CPU 核心數太少、記憶體頻寬不足，就算 GPU 閒著，整體也跑不快。解法是用批次方式一次處理多筆資料，並把檢索、格式化等步驟分開同時進行，讓整體流程更有效率。

▪儲存與 I／O

當模型需從知識庫即時擷取內容（RAG 應用），磁碟速度與資料通道會成為瓶頸。建議使用高速固態硬碟（SSD／NVMe），並讓資料與模型在同一台機器或低延遲網路下運行。

▪網路與互連

多 GPU 或多台主機之間的傳輸，速度決定效能上限。互連規格（如 NVLink、InfiniBand、百 G 等級乙太網）要在規劃時一起評估。否則即使 GPU 再快，通訊延遲也會吃掉所有優勢。

性能以目標回應速度反推架構

很多公司在買機器時會問：「這樣的規格可以跑幾個人？」

[ 推薦閱讀：選對題目比什麼技術都重要 ]

事實上，沒有人能用表格回答這題。不同模型、上下文長度、提示內容都會讓結果差數倍。
正確做法是反過來：

先定義「可接受的回應時間」與「使用高峰狀況」；
然後用你公司的真實語料，在幾個不同推論框架（如 vLLM、TensorRT-LLM）上測試；
觀察在那個目標延遲下，單機能穩定支撐多少請求；
再反推需要多少節點或硬體等級。

這樣，你買的不是「聽說能跑」，而是「確定能撐」。

用更聰明的方法榨出效能

想在有限硬體上支援更多人？
可以考慮量化（Quantization）與模型壓縮。這能降低記憶體占用、提高推論速度，但要注意：速度變快不代表答案不變。建議先用關鍵任務做對照，確認精度仍在可接受範圍，再全面採用。這樣既省資源，又不犧牲品質。

別讓伺服器成為「耗電怪獸」

LLM 伺服器不像一般資訊系統，可以長時間高負載運作。電力容量、冷卻能力、機櫃空間，都需要事前盤點。有些企業在硬體還沒上線前，冷氣就已經不夠用。因此：
● 預先計算整體耗能與散熱冗餘；
● 若電力有限，考慮地端＋雲端混合部署，讓尖峰負載由雲端承接。
這樣能平衡投資，也避免營運風險。

沒有監控，就沒有優化

AI 硬體投資不是一次性。長期的維運、擴充、升級也都需要考慮。無論買多好硬體，若沒監控，就等於開車沒儀表板。以下需要上線後持續追蹤：

● 回應時長（p95 response time）
● 字元（Tokens）處理速率（吞吐量）
● 從輸入到輸出第一個字元的等待時間（TTFT, Time To First Token）
● GPU／CPU／記憶體使用率
● 錯誤與超時比例

藉由持續觀測，才能在早期就發現效能下滑、資料異常，避免用戶體驗崩壞。

真正該買的不是「最強機器」，而是「最能支撐目標的系統」

導入地端 LLM，最怕的是「花了錢買硬體不知道要做什麼或是根本跑不動」。當我們完整的框架思考評估，硬體不再只是採購成本，而是企業智慧化轉型的長期基石。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

硬體到底要怎麼選，才能「不花冤枉錢」？

地端 LLM 導入系列報導之四：採購建置篇

你到底想讓 LLM 做什麼？

模型要「剛好會用」

硬體要從「整體架構」來思考

▪GPU 是主角，但不是全部

▪CPU 與記憶體的角色

▪儲存與 I／O

▪網路與互連

性能以目標回應速度反推架構

用更聰明的方法榨出效能

別讓伺服器成為「耗電怪獸」

沒有監控，就沒有優化

真正該買的不是「最強機器」，而是「最能支撐目標的系統」

勤誠興業與龍華科大簽署MOU 啟動先進製程合作新篇章

借重美國國防部 CMMC，推動數位安全轉型

相關文章

近期文章

📈 CIO點閱文章週排行

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

文章分類

熱門標籤

活動

影音