口述/孫培然·彙整/CIO編輯室

本期開始,我們將聚焦於實際的醫療場域,深入探討「多模態 AI 如何協助醫療單位優化臨床作業流程」。臨床工作每天都充滿了大量資訊的輸入,如醫囑、檢查報告與病歷記錄屬於文字,檢查結果影像如 X 光、MRI 屬於影像資料,問診與聽診則帶有聲音跟語調。事實上,甚至包含病人日常活動的行為影片或穿戴式裝置的生理數據,都是跨模態的資料處理整合,這些跨模態資料的整合與處理,正是傳統系統效益低落、錯誤高的主要原因,但這也正是多模態 AI 發揮的空間,只要多模態的 AI 能夠提升效率,降低錯誤,等於就是解放醫護人員的人力。
滿足落地:政策與制度如何支撐多模態 AI
我們會提到像是微軟的 Dragon Copilot 和 Google 的 MedLM 等,目前已經商轉並進入臨床階段的產品,以說明多模態 AI 不再只是研究,而是真正在實際場景中被使用。
當然不能只談技術與亮點,還要正視未來可能的挑戰:隱私與資安風險、模型偏誤、可解釋性不足、資源落差、過度依賴、責任歸屬等。從這些隱憂出發,我們將引出「負責任的 AI」、「可監管的 AI」、「醫護共決的 AI 協作架構」等關鍵議題,幫助讀者全面理解多模態 AI 的價值與挑戰。
為了回應這些挑戰與政策需求,衛生福利部於去年正式成立三大 AI 中心:「負責任 AI 執行中心」、「臨床 AI 取證驗證中心」與「AI 影響性研究中心」,目的就是針對智慧醫療臨床應用中最難啃的三個關鍵問題:落地(實際應用)、取證,以及健保給付。
當時全國各層級醫院熱烈參與,共有 30 家醫院提交 48 個提案。經國內外委員三階段評選後,最終共有 16 家醫院(19 案)通過決選,其中包含臺大、中榮、北榮、成大、中醫大、三軍總醫院、林口長庚等具指標性的醫院。
三大中心各自重點如下:
- 負責任 AI 執行中心:訂定資安與隱私保護管理辦法,提高 AI 的透明度與可解釋性,建立模型生命週期管理制度,確保臨床使用時的可靠與安全。
- 臨床 AI 取證驗證中心:與食品藥物管理署合作,解決 TFDA 取證速度慢與驗證資料不足的問題,建立跨院、跨體系的資料共享與驗證機制,加速 AI 醫材與產品的合法落地。
- AI 影響性研究中心:與中央健康保險署合作,設計臨床試驗與醫療經濟評估,透過科學方法量化 AI 應用的臨床效益與成本效益,為 AI 醫材納入健保給付建立依據。
這些政策不只是口號,而是真正在制度與法規上付諸行動。它們為多模態 AI 的技術亮點和實際應用提供了後盾,不但能增加民眾、醫師與醫院的信任,也讓「價值 vs. 挑戰」的討論更有深度。
AI 不是取代,而是協作
首先要強調,AI 並不是來搶飯碗,而是來幫忙節省時間、減輕書寫負擔,讓醫師能有更多時間照顧病人。在美國就有一個大型部署案例:The Permanente Medical Group(TPMG)自 2023 年 10 月中旬 至 2024 年 12 月在美國加州北部的 8 個區域 600 多個診所以及 40 多家的醫院,推行一種叫做 Ambient AI Scribe 的系統,也就是「環境式 AI 書寫助理」。
[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 IG,與全球CIO同步獲取精華見解 ]
這套系統可以即時聆聽醫師與病人的對話,自動生成電子病歷草稿,讓醫師幾乎不需再打字或填表單,效益就是醫師的文書處理時間大幅降低,實際成果也非常驚人,不僅涵蓋了 7,260 位醫師,橫跨超過 257 萬人次的門診量,合計減少 15,700 個工作小時,換算下來大概可以節省 1,794 個工作日。
美國醫學會(AMA)也指出,平均每個醫師每天可以減少一個小時的鍵盤作業時間,這是真正的改善了整個工作壓力。而對病人跟醫師而言,有 84% 的醫生表示,病人之間的互動改善了,82% 認為自己的工作滿意度有所提升;47% 的病人,發現醫生花更少時間低頭看螢幕,39% 認為醫師面對病人的時間變多了,態度也更溫和了,超過 66% 的病人對技術放心或中立,只有 8% 的病人覺得不舒服。換句話說,AI 不是一個「冰冷的機器人」,而是一個默默幫忙醫師的書記小助手。
從整體使用率與效益差異來看,數據顯示經常使用 Ambient AI Scribe 的醫師,節省時間的成效明顯優於低度使用者。以 TPMG 的案例為例,使用頻率最高的前三分之一醫師,佔了所有啟用次數約 89%,而這群醫師每次書寫病歷所節省的時間,則是低頻使用者的 2.5 倍以上。
特別是一些文書工作量大的科別,如基層照護、急診、精神科等,更能夠感受到這樣的工具價值。這些科別醫師因為本來就常有長時間聽診、記錄對話的需求,AI 書寫助理幾乎可以替代很多鍵盤敲打與填表動作,使得文書負擔的減輕更為顯著。
從單一到多感官:多模態 AI 重塑臨床
過去我們熟悉的 AI 系統,多是「單一資料型 AI」,例如:只處理影像的圖像 AI(像 X 光判讀)、只處理語音的語音助理(像 Siri)、只處理文字的 NLP 系統(像早期的 ChatGPT)。這些系統雖各自在自己的領域專精,但它們無法整合不同型態的資訊,無法同時把影像、語音、生理訊號與文字結合來進行判斷。
所謂的「多模態 AI」,就是 AI 能夠同時處理影像、文字、語音、生理訊號等多種型態資料,並把這些資料融合起來,像人一樣整合多個感官的輸入來思考與判斷。比方說醫師會從病人的語音描述、檢查影像、電子病歷、血壓與心跳等生命徵象中拼湊完整的臨床樣貌。多模態 AI 能一次讀懂這些資料、彼此連結,再做出更全面、更精準的判讀。
[ 推薦文章 :AI 預算規劃 ]
在急診或重症情境中,多模態 AI 的這種能力特別關鍵:假設病人來到急診室,系統可同時讀取病人的電子病歷、當天的 CT 或 X 光影像、病人口述的病況語音,以及即時監測的心電圖與生命徵象。透過這些資料的整合分析,多模態 AI 可以在第一時間生成綜合判讀報告或發出臨床警訊,幫助醫護人員抓到潛在風險並提早處置。
換句話說,多模態 AI 不只是「看到一種資料就下結論」,而是從多重感官輸入中交叉比對與融合判斷。這就是為什麼在醫療場景中,多模態 AI 的落地潛力特別高 —— 它提升準確性、提高穩定性、加強對複雜場景的容錯力,也讓 AI 的判斷更貼近臨床真實。
多模態 AI 的核心能力
在醫療場域中,多模態 AI 的核心能力可概括為 「跨資料整合、同步分析、強化判斷」。這意味著,它不再僅限於處理單一來源資料,而是能同時接收影像、文字、語音、生理訊號等多種型態的資訊,並將其融合,讓判斷更全面、更精準,進一步因應臨床的複雜需求。
臨床常見的資料模態非常多樣,分述如下:
- 文字模態:
包括電子病歷、臨床筆記與醫學文獻。AI 能進行摘要、關鍵字標註與自動生成報告,協助醫師快速整理資訊,減少書寫負擔。 - 影像模態:
涵蓋 X 光、CT、MRI、病理切片等。AI 模型能偵測影像中的異常或早期病變,輔助醫師更快做出診斷。 - 語音模態:
常見於問診過程中醫師與病人的對話。AI 可以即時將語音轉換成文字,並結構化病歷內容,大幅降低輸入與紀錄的時間成本。 - 生理訊號模態:
如心電圖(ECG)、腦波(EEG)、心跳與呼吸等生命徵象的時間序列資料。AI 可用於異常偵測與風險預警。 - 基因/組學模態:
例如基因序列與突變標記,能提供個人化疾病風險評估與體質分析。 - 環境與行為模態:
來自穿戴式裝置或感測器,例如活動量、體溫、居家監控與異常行為偵測(如跌倒、失智患者行為追蹤),對長期照護與復健追蹤特別有價值。
[ 閱讀 孫培然 所有專欄文章]
以框架為例,麻省理工學院(MIT)提出的 Holistic AI in Medicine (HAIM) 框架,整合了四種資料模態:表格資料、時間序列、生理訊號/生命徵象,以及影像與文字。該研究涵蓋 34,537 筆樣本、7,279 次住院紀錄與 6,485 位患者,並在 12 項預測任務(如胸部影像診斷、住院天數預測、48 小時死亡率預測等)進行驗證。結果顯示,相較於僅使用單一資料型態的模型,整合多模態資料的表現提升了 6% 到達 33%。
(本文授權非營利轉載,請註明出處:CIO Taiwan)
