• 登入
  • 註冊網站會員
CIO Taiwan
  • 活動
  • 影音
  • 趨勢分析
  • CIO 雜誌
  • CSO精選
  • 電子報
  • 下載
  • 聯繫我們
沒有結果
查看所有結果
CIO Taiwan
沒有結果
查看所有結果
首頁 供應商視野

戴爾推出極致大數據平臺

2023-11-08
分類 : 供應商視野
0
A A
0
戴爾大語言模型

Image by pch.vector on Freepik

大語言模型浪潮來襲 儲存設備重要性日增

面對大語言模型時代來臨,戴爾科技集團建議從高可擴充性、高效能、高可靠度、成本最佳化等角度,選擇最合適的儲存設備。

採訪/施鑫澤‧文/林裕洋


戴爾科技
◤ 戴爾科技集團技術副總經理李百飛。

2022 年底 ChatGPT 3 問世之後,展現出前所未有的強大回應能力,也引爆第二波 AI 革命,讓生成式 AI、大語言模型等成為時下最熱門的技術。然而多數品牌業者在討論 AI 解決方案時,都將重心放在 GPU 卡的數量、等級等,卻往往忽略整體基礎架構需相互搭配的重要性,最終導致 AI 專案效益不如預期。

戴爾科技集團技術副總經理李百飛指出,大語言模型與生成式 AI 技術對於基礎設施的需求極高 ,就如汽車必須要透過引擎、底盤、方向盤等之間的相互搭配,才能發揮最大效果。一套要能滿足 AI 專案需求的基礎架構,需涵蓋算力、網路、儲存設備、管理等四大面向,在算力部分需要大量高性能的 GPU 主機與適配的 CPU 伺服器等,負責集群管理、登錄、資料預處理、模型訓練、精調、推理、資料視覺化等工作。

在網路架構部分,則需高性能 GPU 運算網路、儲存網路、管理網路等。至於儲存設備部分,則需考量儲存原始素材、訓練資料集、模型檔、訓練與精調中的過程資料等,所以必須仰賴高性能分散式並行檔案儲存系統,來滿足 TB 級到 PB 級資料的處理能力。最後在管理軟體部分,則需要 GPU 計算集群管理、資源調度、大語言模型部署、安全護欄等平台軟體解決方案協助。

內容目錄 隱藏
大語言模型浪潮來襲 儲存設備重要性日增
大語言模型訓練資料量驚人 考驗儲存設備能耐
以 Dell PowerScale 為核心
可靠度達到99.999%

大語言模型訓練資料量驚人 考驗儲存設備能耐

Open AI 投入 ChatGPT 多年,ChatGPT 3 能展現令人驚訝不已的能力,關鍵在於運用大量資料進行訓練。根據 Open AI 提供資料顯示,GPT 3 訓練資料集規模達到 8,000 億 Token 語料庫,而最近發表的 GPT 4,訓練資料集規模達到 13 兆 Token 語料庫。除此之外,市面上有不少備受推崇的開源大語言模型,Bloomberg GPT 訓練資料集規模為 7,000 億 Token 語料庫、Llama2 訓練資料集規模為 2 兆 Token 語料庫、ChatGLM2 訓練資料集規模為 1.4 兆 Token 語料庫。

[ 推薦閱讀:生成式 AI 成熟度模式 ]

換句話說,大語言模型與傳統 AI 模型相比,在訓練資料集規模更大的狀況下,很難再利用傳統 GPU 伺服器內建的快取記憶體,減少對集中儲存設備的讀取性能需求。特別是大語言模型訓練時間往往長達數星期到數個月以上,所以儲存設備需要具備定期寫入檢查點(Checkpoint),並提供集群故障恢復功能,才能確保 AI 模型訓練過程中的可靠度、穩定度與斷點可恢復性。特別是當大語言模型參數規模愈大時檢查點的數據量也會狂暴增加。

李百飛表示,一般來說,文本類的大語言模型的訓練資料集規模,大約在數十 TB, 若是多模態 AI 大模型則需要更大規模的文件/圖像/語音/視頻訓練資料。以 GPT 3 使用 1,750 億個參數為例,其文本型訓練資料量為 45TB,模型參數檢查點的一次資料儲存量達到 2.45TB。而 GPT 4 使用 100兆個參數,多模態訓練資料量是屬 EB 級別,其檢查點一次資料儲存量是 PB 級別,綜觀此等訓練資料量早已超過 GPU 伺服器的快取容量。因此,當 AI 模型訓練過程發生異常中斷狀況時,便需要透過讀取設備中的 Checkpoint 檢查點資料,才能讓 AI 模型訓練得以持續進行。因應此需求,特別推出能滿足大語言模型訓練需求的極致大數據平臺,具備極快效能、極大擴充性、極高可用性、開放與開源、極致性價比等特性。

以 Dell PowerScale 為核心

李百飛指出,戴爾極致大數據平台是以 Dell PowerScale 數據湖儲存解決方案為核心,具備整合資料收集、保存、分析與保護等功能,提供多雲環境中佈署的能力,可以有效整合不同來源的資料,並透過清洗、過濾、建模等步驟後,再依照不同資料屬性與安全性進行分類與處置,滿足後續大語言模型訓練之用。這套儲存架構平台,符合 Gartner 最新定義的 Data Fabric 框架,讓資料流程得以簡化,進而提高資料的價值與降低基礎架構維運成本支出。

Dell PowerScale 數據湖儲存解決方案是市場上少數同時完整支援 NFS、SMB/CIFS、S3/SWIFT/REST API、FTP 乃至 HDFS 等所有協定的產品,能夠有效整合不同來源的資料型態,完全抹除資料孤島的問題。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]

「大語言模型資料量非常驚人,訓練資料集規模往往超過數千億Token 語料庫以上,因此儲存設備需要擁有極大的擴充能力與資料讀寫速度。」李百飛解釋:「Dell PowerScale 最多可擴充到 252 台節點,以F900 節點為例儲存總容量可達到 186PB,資料讀取速度可達到 2,347GBps,若結合 Auto ILM 功能總儲存量可達 EB 級別,絕對能滿足大語言模型的訓練需求。」

可靠度達到99.999%

PowerScale 數據湖儲存解決方案採用網格、多節點、多冗餘與 Auto ILM 的設計架構,提供高性能分散式並行檔案儲存系統,單一儲存集群可混搭高性全快閃節點與大容量磁碟節點,支援獨一的全節點全域資料消重壓縮功能,主打能支撐在邊緣、資料中心或雲端中 的工作負載,具備優異效能與龐大容量,可滿足 現今與未來的現代化工作負載需求。換句話說,PowerScale 非常適合儲存及管理不同種類的非結構化資料,在 Big Data 分析、HPC、基因組學、多媒體等應用都有大量使用案例。前面提到,PowerScale 支 援 NVIDIA GPUDirect Storage 功能,可加速大模型語言的訓練速度。根據集團內部測試結果顯示,NFS over RDMA 相較於 TCP 協定,整體效能可提升 10~25%,而用戶端 CPU 負載可下降 5~30%。

李百飛指出,另外,這款產品具備自動化資料生命週期管理的功能,透過資料分層政策,兼顧資料讀寫性能、儲存容量與降低儲存成本的需求。特別是 PowerScale 儲存平台的可靠度達到 99.9999%,在硬體設備擴充、軟體升級時,可透過 Failover 機制享有資料服務不中斷的優點。值得一提,我們也與 AWS 平台合作,推出 APEX Storage for AWS 服務,讓企業儲存成本可創造 3~4 倍的效能等。


(本文授權非營利轉載,請註明出處:CIO Taiwan)

標籤: AIDellDell PowerScale儲存設備大數據平台大語言模型戴爾生成式AI
上一篇文章

熊市之後的蛻變:開創虛實交互的新商模

下一篇文章

智慧的金融監理時代

相關文章

I170d15
供應商視野

博弘雲端 AICOM 三大特色 助企業落實雲端管理

2025-08-14
I170d14 (1)
供應商視野

CyberArk 多元方案齊發全方位保護身份安全

2025-08-12
◤InventAI團隊即將成為中華電信旗下AI新創子公司,以其DeepFlow智慧分析平台與DeepVoice客戶心聲分析平台,致力為各行各業提供從AI平台建置到應用落地的全面奧援。
Sponsors

中華電信InventAI推動企業升級轉型,擘劃數據智能新藍圖

2025-08-05
下一篇文章
金融監理科技

智慧的金融監理時代

追蹤我們的 Facebook

近期文章

  • 藍盾+實名要素驗證 政府 LINE 帳號防堵詐騙集團
  • 數位轉型意識提升 2025 企業數位五力自評 69.3 分創新高
  • 有效的防火牆管理
  • 金融業與科技業加速佈局虛擬資產
  • 川普2.0來襲:長期韌性、短期彈性的供應鏈新趨勢

📈 CIO點閱文章週排行

  • 1200630

    【專訪】聯華電子資深副總經理暨資安長吳宗賢

    0 分享
    分享 0 Tweet 0
  • 擔心採用雲端 LLM 翻船,地端 LLM 建置成希望

    0 分享
    分享 0 Tweet 0
  • 面對生成式 AI 帶來的勞役不均現象

    0 分享
    分享 0 Tweet 0
  • 【專訪】燁輝企業總經理張振武

    0 分享
    分享 0 Tweet 0
  • 川普2.0來襲:長期韌性、短期彈性的供應鏈新趨勢

    0 分享
    分享 0 Tweet 0
  • MCP ─ AI 模型與數據世界的橋樑

    0 分享
    分享 0 Tweet 0
  • 邁向個資保護新時代

    0 分享
    分享 0 Tweet 0
  • 【專訪】漢翔公司資訊處處長方一定

    0 分享
    分享 0 Tweet 0
  • 資安署攜衛福部四策略強化醫界防護 資安將納醫院評鑑

    0 分享
    分享 0 Tweet 0
  • Rapidus 二奈米成功試產有何意義?

    0 分享
    分享 0 Tweet 0

數位及平面

  • CIO Taiwan 網站
  • CIO 雜誌紙本
  • CIO 雜誌 HYREAD 版
  • CIO 雜誌 Zinio 版

關注社群

  • Line 加入好友
  • Facebook 粉絲頁

合作夥伴

  • CIO 協進會

關於我們

  • 公司介紹及工作機會
  • 隱私權政策

旗訊科技股份有限公司|統編:84493719|台北市 100 中正區杭州南路一段 15-1 號 19 樓|TEL: 886-2-23214335
Copyright © Flag Information Co.,Ltd. All Rights Reserved.

CIO Taiwan 歡迎你回來!

可用 使用者名稱 或 Email 登入

忘記密碼 註冊

歡迎註冊 CIO Taiwan 網站會員

請設定 Email 及 使用者名稱(使用者名稱不接受中文、將來無法更改)

欄位皆為必填 登入

找回密碼

請輸入 使用者名稱 或 Email 以重設密碼

登入
  • 登入
  • 註冊
沒有結果
查看所有結果
  • 活動
  • 影音
  • 最新文章
  • 產業速報
  • 新聞速寫
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 專欄
  • 精選文章
  • 原生現場
  • 供應商視野
  • 線上調查
  • CIO 雜誌
  • 電子報
  • 下載
  • 聯繫我們

© 2020 CIO Taiwan 版權所有

7/28 活動延期通知

因高雄市政府於7/28早上宣布全日停班停課,因此「智慧醫療研討會高雄場」活動延期舉辦。主辦單位將另行公告研討會相關訊息,歡迎報名參加!

您已閒置超過 3 分鐘了,為您推薦其他文章!點擊空白處、ESC 鍵或關閉回到網頁

20250731 145511

童子賢:半導體為臺灣造山 AI 將為臺灣「造浪」

文/鄭宜芬 台北市電腦公會榮譽理事長暨和碩董事長童子賢 31 日出席數位發展部主

1200630

工研院 MedBobi 2.0 上線 AI 助降五成醫護離職率

文/鄭宜芬 AI 發展日新月異,成為各院留住醫護人手的利器。工研院 21 日宣布

1200630

臺灣攜手 21 個亞太經濟體 共同發表首份數位與 AI 部長宣言

文/鄭宜芬 數位發展部部長黃彥男於 8 月 4 日至 6 日率領我國代表團出席「

1200630

AI 公務人才發展辦公室揭牌 聚焦三大核心業務

文/鄭宜芬 為加速政府服務導入人工智慧(AI)應用,行政院人事行政總處與數位發展

1200630 (1)

國際加速器解密 進軍美國百億市場通路

文/鄭宜芬 不少新創團隊擁有頂尖技術,卻找不到進入美國市場的門路。國際創投加速器

Moda

2025 全國公民科技試驗場域決選揭曉 智慧治理新方案

文/鄭宜芬 數位發展部指導的「114 年全國公民科技試驗場域 Civic Tec

I169d05

以永續金融聚焦企業範疇三減碳

文/林呈欣 金管會作為金融市場的監理者,在推動企業永續轉型方面扮演著重要的角色。

I170s10

人工智慧時代的 FATE 原則

文/張瑞雄(資訊系教授、台北商業大學前校長) 當人工智慧(AI)進入全面普及階段

I170d06

面對生成式 AI 帶來的勞役不均現象

文/洪為璽 從 ChatGPT 到 Midjourney(圖片生成 AI),生成

Ciotaiwan Logo 600 White

文章分類

  • 產業速報
  • 專欄
  • 影音
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 原生現場
  • 精選文章
  • 趨勢分析
  • 供應商視野
  • 新聞速寫
  • 下載
  • Sponsors

熱門標籤

  • 最新文章
  • 雲端運算
  • 人工智慧
  • 數位轉型
  • 製造業
  • 物聯網
  • 資料與分析
  • 資安
  • 區塊鏈
  • 5G
  • 儲存
  • 基礎架構

活動

  • CIO價值學院 四堂課
  • 智慧醫療研討會 台北/高雄場
  • 金融科技高峰會 春季/秋季場
  • 製造業CIO論壇 台北/台中/高雄場
  • 商業服務科技論壇
  • 亞太CIO論壇
  • CISO資安學院 金融/醫療/新竹場
  • CIO Insight 調查

影音

  • 影音