AI 民主化跨大步，解析低成本 AI 模型背後的創新

在 AI 界一飛沖天的中國新型 AI 模型 DeepSeek，透過像是模型蒸餾、監督式微調、強化學習等一連串降低資源消耗與相關成本的技術，竟然贏得了「AI 民主化賦能者」的名聲。

編譯／酷魯

當前全球正關注中國某對沖基金開發的 DeepSeek，其效能表現不僅可與 Open AI 當紅 AI 模型相提並論，而且定價估計比 OpenAI 便宜 20 至 40 倍，不僅讓過去預算有限的小型公司也能開始擁抱 GenAI，同時一舉衝上 Apple 應用商店免費下載排行榜第一名。以下就讓我們一同探究該模型火紅與創新背後的秘密武器為何。

內容目錄 隱藏

監督式微調、兩階段強化學習與模型蒸餾的完美整合

破解創新 AI 模型正反兩面的質疑與迷思

創新關鍵全在強化學習，未來焦點全面轉向 AI 的有效擴展

開放 AI 模型將遍地開花

監督式微調、兩階段強化學習與模型蒸餾的完美整合

DeepSeek 同時整合了監督式微調（Supervised Fine-Tuning，SFT）與強化學習（Reinforcement Learning，RL）技術。其令人矚目的創新訓練方法，是先在初始階段進行冷啟動（Cold-Start）微調，然後採取推理導向的第一次強化學習，最後進行監督式微調與第二次的強化學習，透過兩階段強化學習，能夠優化模型兼顧推理能力提升與兼顧人類偏好的整體表現。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ，與全球 CIO 同步獲取精華見解 ]

這家中國 AI 新創開源了多個蒸餾（Distillation）模型，展現了蒸餾 R1 知識至開放原始碼模型的強大潛力。該模型先訓練大型教師產生的軟標註（Soft Label），然後再用軟標註來訓練小型的學生網路，在有效降低計算量的同時，並保持高效能與精準度。

除此之外，為了提升推理能力，該模型還採用了群體相對政策優化（Group Relative Policy Optimization，GRPO）的 RL 演算法，在不依賴評論器（Critic）的設計下能有效簡化計算，並透過相對獎勵機制，實現高精準的推理結果。

破解創新 AI 模型正反兩面的質疑與迷思

DeepSeek 熱潮持續延燒，激情過後業界也開始冷靜審視與討論其創新背後的疑問與迷思：

遭到抄襲、侵權的指控
OpenAI 指控 DeepSeek 竊取其智財權，並表示有證據顯示該公司利用 GPT 模型來訓練自家 AI。此外並指控，該模型是經資料蒸餾才訓練出來的。事實上，蒸餾技術是 AI 界降低成本的常見做法，而且該技術只是這款模型採用的技術之一，其創新之處在於它還整合了強化學習等多種技術。由於 OpenAI 本身並沒有取得相關 AI 專利，而且美國法界認為 AI 生成內容不能享有著作權，侵權指控似乎很難成立。
其為完全開放原始碼的模型
DeepSeek 的成功被視為開放原始碼 AI 戰勝封閉式 AI 的象徵。但 R1 並不完全符合公認的開放原始碼定義，因為必須提供用於訓練 AI 資料細節的存取權、用於構建和運行 AI 的完整程式碼，以及訓練過程中的設定與權重，對此 R1 並未公開。
可能會有額外的安全隱私風險
人們會因為該新創公司擁有中國背景而有安全隱私方面顧慮，而且其會將使用者資料回傳，但這個問題可說是當前 AI 模型極待解決的通病，因為其他 LLM 一樣會對隱私與安全造成同樣的風險。
美國出口管制無效
DeepSeek 的技術突破被視為美國出口管制的意外結果，因為該中國新創被迫在算力受限的情況下，尋找更高效的 AI 訓練方法。但 AI 政策專家 Miles Brundage 指出，出口管制仍可能拖慢中國運行更多 AI 實驗和構建 AI 代理（AI agent）的腳步。其創新並不意味著不需要更多 GPU，這也不代表他們能像擁有更大算力的 OpenAI 那樣，迅速從 o1 躍升至 o3 或 o5。
其對 Nvidia 構成嚴重威脅
微軟執行長納德拉（Satya Nadella）在 X 上推文指出，與直覺相反的，該 AI 模型的影響反而會增加對高階 GPU 的需求，因為傑文斯悖論（Jevons paradox）效應會在背後發揮作用。
AGI 即將到來？
儘管 R1 標誌著 AI 競賽中的一個關鍵轉折點，但該新創公司並未達成全新的技術突破。紐約大學教授兼 AI 專家 Gary Marcus 表示，要達到 AGI 可能還需要五到六次的重大突破，而率先推動這些突破的企業或國家，最終可能會勝出。

創新關鍵全在強化學習，未來焦點全面轉向 AI 的有效擴展

「深入研究 DeepSeek 的技術核心，可以看出其關鍵在於 RL 強化學習及其應用方式，」IDC 全球 AI、自動化、資料與分析研究部門集團副總裁兼總經理 Ritu Jyoti 表示。「大多數語言模型都採用預訓練、監督式微調，最後再透過 RL 進一步優化。然而，DeepSeek 的方法顯示，LLM 僅憑 RL 就能展現推理能力。」

DeepSeek-R1 是基於 V3 此一基礎模型開發的新開放權重（Open-Weight） LLM。而 DeepSeek-R1-Zero 則是一個完全透過強 RL 訓練的階段性模型。根據 Gartner 的分析，這顯示出模型供應商可以擁有透過純 RL 訓練數學與程式設計等特定領域的能力。

然而，Gartner 研究人員指出，DeepSeek 並不代表新的模型典範。反而，它是基於現有 LLM 訓練架構，對技術與架構進行分層優化，使訓練與推理更高效。此外，該模型也沒有為模型效能建立新的技術水準。Gartner 研究人員補充表示，其雖能與現有最先進模型相匹配，但並未超越它們。他們還表示，該模型並不能證明透過額外運算資源與資料來擴展模型是無關緊要的。相反地，它表明了擴展更有效的模型是值得的。

「R1 的推理成本遠較 OpenAI o1 預覽版模型來得更低，實與 LLM 模型層更廣泛的商品化密切相關，」他們寫道。「AI 的效率已不再取決於每符元（Token）成本，」研究人員補充道。「而是關於哪個模型能在不影響準確性與延遲的情況下，以最低成本進行推理。因此，未來的焦點將很快轉向 AI 的有效擴展，而不在於組建多少運算資源來訓練模型。」

開放 AI 模型將遍地開花

可以預見的是，DeepSeek 會在以下幾個層面造成影響：

成本面：由於該模型只需以往傳統模型所花成本的一小部分就能實現高效能，因而能有效降低先進 AI 模型的開發與部署門檻。但 Gartner 研究人員指出，最先進的新模型仍將需要高昂的研發與運算成本，並最終轉嫁至早期採用者身上。
市場面：過去少數超大規模業者壟斷的局面已被打破，會有更多中小型企業加入開發行列。Gartner 研究人員指出，在 DeepSeek 發布後，包括 Meta 在內的其他模型開發商已開始制定應對策略。
開放面：中國 AI 新創選擇將其模型以開放權重形式發布，使開發者和研究人員能夠自由存取與改進其技術。這種開放性有助於促進 AI 社群的合作，加速 AI 技術的發展與應用。
策略面：由於高效能 AI 可以在更少資料、更低成本下實現，CIO 們可能需要重新評估 AI 策略，這部分會在下一章節深入討論，在此不予贅述。
安全面：由於該模型來自中國，可能引發資料隱私與安全方面的顧慮。這部分會在之後章節深入討論，在此不予贅述。
維運面：Forrester 分析師團隊指出，CIO 們莫不認為中國最新模型會影響邊緣運算、AIOps（人工智慧營運）以及 IT 維運。當 LLM 在邊緣裝置上運行時，AIOps 和可觀測性（Observability）可達到新的即時洞察力與自動化水準。