文/鄭宜芬
因應 AI 帶來之挑戰,AI 產品與系統評測中心(Artificial Intelligence Evaluation Center,簡稱 AIEC)依循國家政策完善 AI 評測體系,3 日首次公布 42 項語言模型基準評測結果,顯示國內開發的 TAIDE 在小模型中表現名列前茅,展現臺灣 AI 研發實力。國家資通安全研究院副院長龔化中表示,期能透過 AIEC,推動我國 AI 在地化評測與第三方驗證,強化產業 AI 信任發展,接軌國際規範。
[ 加入 CIO Taiwan 官方 LINE與 Facebook,與全球 CIO 同步獲取精華見解 ]
五大評測項目 涵蓋六類 AI 系統與產品
工研院資通所組長王邦傑表示,為配合智慧國家發展方案及「臺灣 AI 行動計畫 2.0」,數位發展部成立 AIEC,透過實驗室、驗測資料集與工具,提供 AI 系統與產品的驗測服務,擬定評測項目包含公平性、準確性、可靠性、隱私及資安,涵蓋語言模型、影像偵測、多模態應用、影像分類、影像生成與聲音/訊號等領域,並鏈結美國 NIST、ISO、IEC、法國 LNE、德國 TUV、UL Solutions 等國際組織與認證機構。
AI 評測服務由資安院執行,查核 AI 測試實驗室測試結果或人工查核項目產生評價報告,並依循 ISO/IEC 17065 之架構、資源與過程要求,目標 2027 年通過TAF;工研院則負責進行 AI 測試服務與產出測試報告,依循 ISO/IEC 17025 所需之品質管理文件,目標 2026 年通過 TAF。
AIEC 提供諮詢輔導、評測模擬與工具,協助國內 AI 產品與系統合規,接軌國際規範,目前處於 POC/POB 階段,鼓勵廠商申請送測並提供測試結果與評價報告供參考。至今已收到 14 個案例,涵蓋 8 家業者,部分為商業服務與應用,部分供政府單位使用與執行政府計畫。


AIEC 認證標章預計於取得 TAF 認證後推出,以確保公信力。在 ISO 對接部分,ISO 42001 屬管理框架,主要定義企業導入 AI 應注意事項;針對細節測試與確認機制的 ISO 42119 仍在制定中。AIEC 評測實驗室已有成員取得 ISO 42001 證照,可協助廠商進行 AI 開發過程的合規交流與輔導。
[ 推薦閱讀:歐美 AI 法規陸續底定,導 ISO 42001 將事半功倍 ]
語言模型評測 TAIDE 名列前茅
此次公布的 42 項語言模型基準評測結果,依語言模型規模進行系統性檢測國內外模型表現,採用「高中學測國文科」及「高中學測社會科」指標,並納入「臺灣價值觀」評測指標,以符合國際 AI 主權發展趨勢,並作為未來建構在地模型或調校國際模型的重要基準。
經由評測顯示,由國內開發的 TAIDE(Gemma-3-TAIDE-12b)在小模型(13b 以下)中表現名列前茅,比所使用之原基礎模型 Google(Gemma-3-12b-it)表現更佳,展現臺灣 AI 研發實力。在大模型中(13b 以上),則以OpenAI GPT-5 整體表現最佳,其中Google Gemini 2.5 Flash 在「臺灣價值觀」的評測上表現優異,顯示其對臺灣主流價值觀具備較高的理解與對應能力。
另外,部分中國語言模型在「臺灣價值觀」評測項目也表現不錯,研判可能其模型所使用的「蒸餾技術」,是以歐美基礎模型的輸出作為訓練資料。
整體而言,部分歐美語言模型如果沒有使用到臺灣繁體中文語料進行訓練,在「臺灣價值觀」的評測上表現較差,此突顯推動本土化語料建置之重要性。
數發部積極推動臺灣主權 AI 語料庫,提供具在地語境與本土價值的繁體中文資料,作為語言模型訓練的重要基礎,確保 AI 發展符合臺灣社會價值與語言文化。AIEC 並將廣泛徵求各界專家提供評測題目,經審查後,將有機會納入未來的評測題庫。

未來 AIEC 將與各產品主管機關合作,例如自駕車涉及交通部或經濟部,金融應用則涉及金管會。目前金管會已公布的治理要求較接近 ISO/IEC 42001(管理制度面),相關技術檢測則由 AIEC 負責執行,以期共同推動安全、穩健與可信賴的 AI 評測體系,強化我國 AI 產品的市場適用性與全球化發展。
(本文授權非營利轉載,請註明出處:CIO Taiwan)
