在過去一年多裡,全球最具影響力與創新力的Meta 與 Google兩家公司,正揭示了他們賦予我們具身超能力的意圖。Meta 率先將具備情境感知能力的 AI 加入Ray-Ban 智慧眼鏡中,並展示具備同樣能力的 Orion AR眼鏡原型。不甘示弱的 Google,在其合作夥伴三星推出基於 Android XR平台所共同打造的Project Moohan頭戴裝置後,展現了該公司有能力在未來幾年裡成為「技術賦能人類超能力」的領導供應商
編譯/酷魯
2025 年無異是大型科技公司從販售愈益強大工具,轉向販售愈益強大「超能力」的一年。從汽車與飛機,到手機與電腦的傳統工具,讓我們得以完成許多跨越生理限制的事情。至於新的超能力,將由具備情境感知能力的 AI 代理所釋放。它們會被載入隨身穿戴的裝置中(例如 AI 眼鏡),伴隨我們看見我們所看、聽見我們所聽、經歷我們所經歷的一切,並賦予我們更強的能力來感知與詮釋週遭世界。
到了 2030 年,預計絕大多數的人都將生活在情境感知 AI 代理環伺的國度中,在其協助下,能更普遍地將數位超能力帶入日常的現實體驗之中。如今我們正處於透過聲控經由多模態大型語言模型(MLM)來回答有關所處環境一切問題的第一階段。到了 2030 年,我們將進入用「默唸」方式便能與情境感知 AI 代理互通的第二階段。
再到 2035 年,我們甚至只需在腦中「想著某個字的嘴型」,就能精準傳達自己的意圖。甚至AI 能在使用者開口之前,就預先判斷使用者想要的資訊。例如,在某場合突遇某位一時想不起名字的人員,AI 會察覺你的不安,隨即告訴你他姓甚名誰。未來,情境感知 AI 代理甚至會賦予你超人般的能力,去判讀他人臉上的情緒、預測他們的心情、目標或意圖。總而言之,這一切的可能性都將從當前熱門的情境感知 AI 代理開始。
代理式 AI 為開發者帶來全新典範,重新定義商業自動化的本質
隨著AI的快速演進,ChatGPT 的對話能力已成為最基本的智慧,如今的焦點幾乎全都放在「代理」上。人們正在打造更先進的 AI 代理系統,將 LLM 轉化為能思考、能決策、能採取行動的存在,進而自動化各種類型的工作。
要建立一個 AI 代理,開發者必須為某個 LLM 指派一個明確的角色、設定清楚的目標,並提供完成任務所需的資源存取權。當 AI 代理能像人類一樣使用 API、瀏覽器、搜尋引擎與資料庫時,它們便能自主判斷該如何執行被指派的任務。正因為如此,代理式 AI(Agentic AI)為開發者帶來了一種全新的典範,使多個代理能夠在多步驟複的雜任務中協同運作,並重新定義商業自動化的本質。
[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 LinkedIn,與全球CIO同步獲取精華見解 ]
對 AI 代理而言,最重要的莫過於理解情境的能力。LLM可以被教導去記住先前所說過的所有內容,並在不改動底層程式碼的情況下,將這些資訊納入決策考量。這種情境內學習(in-context learning),正是讓 LLM 能夠更有效回應複雜問題的關鍵。
AI 代理還能透過檢索增強生成(RAG)框架進一步自我強化,該技術框架能讓 LLM 從其原始訓練資料之外的動態來源中補充知識,如此便能依特定情境客製化 LLM 的回應。另外較新的發展是能將LLM與大型視覺模型(LVM)能力加以融合的 MLM,透過它AI 代理便能夠操作 GUI 圖形化使用者介面,並同時分析與理解文字與影響。
當前 AI 代理必備的一項關鍵技能是能夠在線上探索、理解並採取行動,這意味著開發者必須教會它如何使用瀏覽器上網衝浪。其中,善用 Browser Use 開源框架,便能讓AI代理理解特定網頁上所有可用的選項,並了解自己需要採取哪些行動。
AI 代理同時也需要一種專用的瀏覽器,例如 Bright Data 公司提供的 Scraping Browser 抓取瀏覽器,如此可以大規模的方式在網路上導航,並避開網站發佈者為防止自動化機器人瀏覽與擷取資料而設置的各種障礙。
一旦 AI 代理已經能夠探索網路,開發者接下來的任務,就是教會它們以合乎邏輯的順序逐步執行任務,讓它們能夠承擔涉及多個步驟的複雜工作。透過使用 Crew AI 的開源代理式 AI 框架,開發者可以快速建立一支 AI 代理團隊,讓它們協同合作來完成多步驟任務。
MCP 之於 AI 代理,就如同 HTTP 之網路、K8S 之於容器
當 AI 代理團隊完成任務時,往往需要存取各式各樣的軟體工具,此時便是模型情境協定(Model Context Protocol,MCP)派上用場的時候。Anthropic 於 2024 年 11 月推出了MCP,就是為了克服傳統AI 模型連接到資料庫、API 或商業工具等外部系統時,必須進行客製化整合的困難與挑戰。
開放原始碼 MCP 正迅速成為 AI 代理與軟體、API 以及服務互動的事實標準,原因在於它能標準化情境共享與行動執行的方式,使代理能在動態的多工具環境中運作。正如 API 曾經改變軟體之間的溝通一樣,MCP 也將成為代理與工具互動的通用語言與介面,支援跨領域的工具串接,進而實現更強大的複合型行動。
[ 推薦文章:AI 基本法通過後應知道的要事 ]
MCP 具備標準化介面、動態探索、安全與隱私、可與任何模型搭配使用,以及開放原始碼等關鍵特色。它之所以重要的原因是,它透過提供單一協定來消除整合上的複雜性,讓任何 AI 模型都能連接到任何相容的工具或資料來源,進而打造可擴展、具備情境感知能力的 AI 應用。不論如何,MCP 仍面臨初始設定複雜度、效能負擔、學習曲線與安全性顧慮等挑戰,開發人員必須注意並做好準備。
截至 2025 年 5 月,已有超過 5,000 個 MCP 伺服器被建置,其生態系正擴展至雲端服務、IoT 平台等多種連接器。可以預見的,MCP 有望成為 AI 整合的基礎標準,就如同 HTTP 之於網路、Kubernetes 之於容器編排,OpenAI、Google DeepMind、Microsoft 等主要參與者以及社群開發者的快速採用,顯示了它塑造 AI 未來的潛力。
(本文授權非營利轉載,請註明出處:CIO Taiwan)














