施永強：生成式 AI 引爆革命改變 AI 發展藍圖

第十七屆CIO價值學院第四堂課數位轉型與AI創新會後報導

生成式 AI 強大威力正改變 AI 技術發展趨勢，其具備自動生成多層次特徵，並適應各種場景需求，已在在圖像、語音識別中等展現非常優異成績。可預期 GPT-5 模型的推理能力和多模式能力，將徹底改變人類與 AI 互動的方式。

文／林裕洋

早在1950年代科學家即投入 AI 發展，只是早期受限於電腦運算能力有限，AI 發展並沒有太大進展。直到2016年，在高速電腦運算能力與 GPU 等加持下，Google 推出 AlphaGo 系統，並連續多次擊敗世界頂尖圍棋棋手之後，正式開啟全球 AI 蓬勃發展時代，也催生出智慧交通、智慧醫療等創新應用服務。

早期傳統模式識別方法依賴於人工設計的特徵進行分類，不僅有成本高昂、難以應對複雜場景變化等挑戰。現今在生成式 AI 技術不斷演進，正推動各行業的應用范愁予創新，在從圖像生成、文本生成，到多模態資料處理等領域，已展現出強大適應能力和發展潛力。

美國紐澤西理工大學教授施永強指出，2022年底 OpenAI 推出 ChatGPT 服務，讓人見識到生成式 AI 的強大威力，也自此改變 AI 技術發展趨勢。隨著自動化特徵工程進化、AutoML 技術成熟，生成式 AI 能夠在不依賴手工設計特徵的情況下自動生成多層次特徵，並適應各種場景需求，GPT-4、LLaMA 系列等生成式 AI 模型，不僅在語言生成方面有非常驚人表現，還能通過多層次特徵學習，在圖像、語音識別中等展現非常優異成績。可預期 GPT-5 模型推理能力和多模式能力，將徹底改變人類與人工智慧互動的方式。

內容目錄 隱藏

第十七屆CIO價值學院第四堂課數位轉型與AI創新會後報導

生成式 AI 助攻圖像標註大幅進步

防止深度偽造仰賴 Multi-attentional Framework

借鏡以色列全力發展 AI

生成式 AI 助攻圖像標註大幅進步

圖像解析是種為特定圖像生成自然語言描述技術，在人機互動、圖像檢索、視覺輔助等方面具有廣泛應用價值，當 AI 應用於圖像解析時，可展現出絕佳的效益。其中視覺特徵提取，是提取圖像中的區域特徵、網格特徵、上下文特徵等，至於上、下文注意力機制，則是捕捉目標特徵和上下文特徵之間的互動關係。目前圖像解析常用評估指標，有 BLEU、METEOR、ROUGE、CIDEr、SPICE 等傳統指標，以及 BERTScore、CLIP-S、RefCLIP-S、PAC-S、RefPAC-S 等新興指標。。

目前生成式 AI 已被廣泛應用於圖像標註，在 CLIP、BLIP 等 VLM（Vision Language Models，視覺語言模型）技術協助，讓 AI 系統能自動生成與圖像內容匹配的語意描述，可大幅減少人力負擔。此類技術應用在電子商務和媒體等應用情境中，系統能自動標註商品或內容的特徵，提升圖像檢索和數據處理效率。

施永強說，若圖像描述技術應用於醫學影像分析，自然也能自動生成各種醫學影像報告，幫助醫生迅速解讀影像內容，為病患進行合適的診斷和治療。我們開發一套基於深度學習的醫學圖像描述系統，並在 MedTrinity-25M 資料集上進行實驗，也展現了令人非常滿意的成果。

在施永強教授推動的 MedTrinity-25M 專案中，生成式 AI 可為醫療影像生成標準化的醫學描述，並將專業術語轉換為病人易於理解的語言。這項技術發展不僅提升診療過程中的溝通效率，也幫助患者可更全面地理解自身病情。如此ㄌ一來，醫療人員可透過易於理解的語言，更好地與患者溝通、縮短疑慮。

防止深度偽造仰賴 Multi-attentional Framework

隨著生成式 AI 效益逐漸展現，犯罪組織也將其用於深度偽造之中，也帶來真假訊息辨識的需求。目前深度偽造檢測方法主要將問題，作為簡單的二元分類任務 (真與假) 來處理，由於真、假面孔之間差異非常小，並且發生在侷部區域，傳統 Preliminary Framework 不足以捕捉這些細微的差異。

為此，科學家發展出 Multi-attentional Framework，為細粒度圖像進行分類工作，為此圖像判別提供全新視角，有助於解決深度偽造偵測作為細粒度分類問題。Multi-attentional Framework 可對多個區域進行細緻的特徵分析，於多個臉部區域來捕捉局部判別特徵，尤其在識別面部、聲音偽造時顯現出較強效果，如針對媒體內容驗證能檢測圖片中細微的差異。根據大量測試顯示，Multi-attentional Framework 在 FaceForensics++、CelebDF 等資料集中取得優異表現，幫助提高圖像可信度。

「自主監督學習也是生成式 AI 預訓練的重要環節，主打能在缺乏標記數據的情況下學習各種特徵。」施永強解釋：「自監督學習的應用尤其適合醫療、金融等敏感數據場景，通過學習未標記數據中的特徵模式，生成式 AI 可在低資源情境中，取得高效的學習效果。隨著資料隱私的重要性提升，自監督學習將在資料密集型行業中，獲得更廣泛應用。」

目前生成式 AI 在視覺識別領域正透過對比學習與增強技術提高準確率，主打能針對同一圖像的不同增強版本，進行深入對比與學習，對於物體分類、檢測等應用特別有效。例如，在自動駕駛的目標識別中，通過自動對比學習可大幅增強 AI 對於快速移動物體的辨識能力，確保車主與用路人的安全。

借鏡以色列全力發展 AI

AI 快速發展不光在醫療影像診斷、教育訓練、虛擬場景生成等多場景創造出價值，也帶來全新戰爭概念。現代戰爭早已不是在物理空間中進行，而是在網路上進行，如透過網路攻擊使敵方衛星雷達癱瘓，乃至於干擾 GPS、關閉 Internet 網路等，讓敵方失去協同合作的能力。美國軍方正嘗試開發 GameBreaker 的 AI 系統，輔助各級指揮官做決策。這套系統是利用電腦模擬戰爭遊戲，利用機器學習來訓練最佳的戰場決策能力，並提供各種情況下的最佳戰術，供各級指揮官選擇與參考。

施永強指出，以 AI 技術為核心的武器，涵蓋無人船、無人飛機、無人坦克、機器人、自動化武器等，能依照預先輸入的指令，自動判斷與尋找合適攻擊目標。以色列是全球最積極積極投入 AI 研發的國家之一，根據 Oxford Insights 調研機構公布的2021年政府 AI 整備度指數報告，在160個國家中排名第 20 名。以色列 AI 產業發展作法可分為個三個主要方面，分別是發展 AI 必須的基礎設施、完善建立 AI 基礎設施的最佳環境、打造跨領域可持續的生態系統。台灣可以學習以色列的發展模式，同透過雙方之間的幾樓

施永強也積極參與台灣人工智慧協會（Taiwan Artificial Intelligence Association），期盼透過與海外國家交流，推動人工智慧產業化、擴大產業之人工智慧應用，在促進產業 AI 化之外，同時致力於推動 AI 產業化之目標。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

施永強：生成式 AI 引爆革命 改變 AI 發展藍圖

第十七屆CIO價值學院 第四堂課數位轉型與AI創新 會後報導

生成式 AI 助攻 圖像標註大幅進步

防止深度偽造 仰賴 Multi-attentional Framework

借鏡以色列 全力發展 AI

思想科技 AI 協同工作平臺 Asana，飆升營運效率

FujiFilm 一站式方案快速啟動服務業轉型

相關文章

近期文章

📈 CIO點閱文章週排行

數位及平面

關注社群

合作夥伴

關於我們

CIO Taiwan 歡迎你回來！

歡迎註冊 CIO Taiwan 網站會員

找回密碼

7/28 活動延期通知

您已閒置超過 3 分鐘了，為您推薦其他文章！點擊空白處、ESC 鍵或關閉回到網頁

文章分類

熱門標籤

活動

影音

施永強：生成式 AI 引爆革命改變 AI 發展藍圖

第十七屆CIO價值學院第四堂課數位轉型與AI創新會後報導

生成式 AI 助攻圖像標註大幅進步

防止深度偽造仰賴 Multi-attentional Framework

借鏡以色列全力發展 AI