• 登入
  • 註冊網站會員
CIO Taiwan
  • 活動
  • 影音
  • 趨勢分析
  • CIO 雜誌
  • CSO精選
  • 電子報
  • 下載
  • 聯繫我們
沒有結果
查看所有結果
CIO Taiwan
沒有結果
查看所有結果
首頁 供應商視野

戴爾推出極致大數據平臺

2023-11-08
分類 : 供應商視野
0
A A
0
戴爾大語言模型

Image by pch.vector on Freepik

大語言模型浪潮來襲 儲存設備重要性日增

面對大語言模型時代來臨,戴爾科技集團建議從高可擴充性、高效能、高可靠度、成本最佳化等角度,選擇最合適的儲存設備。

採訪/施鑫澤‧文/林裕洋


戴爾科技
◤ 戴爾科技集團技術副總經理李百飛。

2022 年底 ChatGPT 3 問世之後,展現出前所未有的強大回應能力,也引爆第二波 AI 革命,讓生成式 AI、大語言模型等成為時下最熱門的技術。然而多數品牌業者在討論 AI 解決方案時,都將重心放在 GPU 卡的數量、等級等,卻往往忽略整體基礎架構需相互搭配的重要性,最終導致 AI 專案效益不如預期。

戴爾科技集團技術副總經理李百飛指出,大語言模型與生成式 AI 技術對於基礎設施的需求極高 ,就如汽車必須要透過引擎、底盤、方向盤等之間的相互搭配,才能發揮最大效果。一套要能滿足 AI 專案需求的基礎架構,需涵蓋算力、網路、儲存設備、管理等四大面向,在算力部分需要大量高性能的 GPU 主機與適配的 CPU 伺服器等,負責集群管理、登錄、資料預處理、模型訓練、精調、推理、資料視覺化等工作。

在網路架構部分,則需高性能 GPU 運算網路、儲存網路、管理網路等。至於儲存設備部分,則需考量儲存原始素材、訓練資料集、模型檔、訓練與精調中的過程資料等,所以必須仰賴高性能分散式並行檔案儲存系統,來滿足 TB 級到 PB 級資料的處理能力。最後在管理軟體部分,則需要 GPU 計算集群管理、資源調度、大語言模型部署、安全護欄等平台軟體解決方案協助。

內容目錄 隱藏
大語言模型浪潮來襲 儲存設備重要性日增
大語言模型訓練資料量驚人 考驗儲存設備能耐
以 Dell PowerScale 為核心
可靠度達到99.999%

大語言模型訓練資料量驚人 考驗儲存設備能耐

Open AI 投入 ChatGPT 多年,ChatGPT 3 能展現令人驚訝不已的能力,關鍵在於運用大量資料進行訓練。根據 Open AI 提供資料顯示,GPT 3 訓練資料集規模達到 8,000 億 Token 語料庫,而最近發表的 GPT 4,訓練資料集規模達到 13 兆 Token 語料庫。除此之外,市面上有不少備受推崇的開源大語言模型,Bloomberg GPT 訓練資料集規模為 7,000 億 Token 語料庫、Llama2 訓練資料集規模為 2 兆 Token 語料庫、ChatGLM2 訓練資料集規模為 1.4 兆 Token 語料庫。

[ 推薦閱讀:生成式 AI 成熟度模式 ]

換句話說,大語言模型與傳統 AI 模型相比,在訓練資料集規模更大的狀況下,很難再利用傳統 GPU 伺服器內建的快取記憶體,減少對集中儲存設備的讀取性能需求。特別是大語言模型訓練時間往往長達數星期到數個月以上,所以儲存設備需要具備定期寫入檢查點(Checkpoint),並提供集群故障恢復功能,才能確保 AI 模型訓練過程中的可靠度、穩定度與斷點可恢復性。特別是當大語言模型參數規模愈大時檢查點的數據量也會狂暴增加。

李百飛表示,一般來說,文本類的大語言模型的訓練資料集規模,大約在數十 TB, 若是多模態 AI 大模型則需要更大規模的文件/圖像/語音/視頻訓練資料。以 GPT 3 使用 1,750 億個參數為例,其文本型訓練資料量為 45TB,模型參數檢查點的一次資料儲存量達到 2.45TB。而 GPT 4 使用 100兆個參數,多模態訓練資料量是屬 EB 級別,其檢查點一次資料儲存量是 PB 級別,綜觀此等訓練資料量早已超過 GPU 伺服器的快取容量。因此,當 AI 模型訓練過程發生異常中斷狀況時,便需要透過讀取設備中的 Checkpoint 檢查點資料,才能讓 AI 模型訓練得以持續進行。因應此需求,特別推出能滿足大語言模型訓練需求的極致大數據平臺,具備極快效能、極大擴充性、極高可用性、開放與開源、極致性價比等特性。

以 Dell PowerScale 為核心

李百飛指出,戴爾極致大數據平台是以 Dell PowerScale 數據湖儲存解決方案為核心,具備整合資料收集、保存、分析與保護等功能,提供多雲環境中佈署的能力,可以有效整合不同來源的資料,並透過清洗、過濾、建模等步驟後,再依照不同資料屬性與安全性進行分類與處置,滿足後續大語言模型訓練之用。這套儲存架構平台,符合 Gartner 最新定義的 Data Fabric 框架,讓資料流程得以簡化,進而提高資料的價值與降低基礎架構維運成本支出。

Dell PowerScale 數據湖儲存解決方案是市場上少數同時完整支援 NFS、SMB/CIFS、S3/SWIFT/REST API、FTP 乃至 HDFS 等所有協定的產品,能夠有效整合不同來源的資料型態,完全抹除資料孤島的問題。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]

「大語言模型資料量非常驚人,訓練資料集規模往往超過數千億Token 語料庫以上,因此儲存設備需要擁有極大的擴充能力與資料讀寫速度。」李百飛解釋:「Dell PowerScale 最多可擴充到 252 台節點,以F900 節點為例儲存總容量可達到 186PB,資料讀取速度可達到 2,347GBps,若結合 Auto ILM 功能總儲存量可達 EB 級別,絕對能滿足大語言模型的訓練需求。」

可靠度達到99.999%

PowerScale 數據湖儲存解決方案採用網格、多節點、多冗餘與 Auto ILM 的設計架構,提供高性能分散式並行檔案儲存系統,單一儲存集群可混搭高性全快閃節點與大容量磁碟節點,支援獨一的全節點全域資料消重壓縮功能,主打能支撐在邊緣、資料中心或雲端中 的工作負載,具備優異效能與龐大容量,可滿足 現今與未來的現代化工作負載需求。換句話說,PowerScale 非常適合儲存及管理不同種類的非結構化資料,在 Big Data 分析、HPC、基因組學、多媒體等應用都有大量使用案例。前面提到,PowerScale 支 援 NVIDIA GPUDirect Storage 功能,可加速大模型語言的訓練速度。根據集團內部測試結果顯示,NFS over RDMA 相較於 TCP 協定,整體效能可提升 10~25%,而用戶端 CPU 負載可下降 5~30%。

李百飛指出,另外,這款產品具備自動化資料生命週期管理的功能,透過資料分層政策,兼顧資料讀寫性能、儲存容量與降低儲存成本的需求。特別是 PowerScale 儲存平台的可靠度達到 99.9999%,在硬體設備擴充、軟體升級時,可透過 Failover 機制享有資料服務不中斷的優點。值得一提,我們也與 AWS 平台合作,推出 APEX Storage for AWS 服務,讓企業儲存成本可創造 3~4 倍的效能等。


(本文授權非營利轉載,請註明出處:CIO Taiwan)

標籤: AIDellDell PowerScale儲存設備大數據平台大語言模型戴爾生成式AI
上一篇文章

熊市之後的蛻變:開創虛實交互的新商模

下一篇文章

智慧的金融監理時代

相關文章

是方電訊國際級中立水冷 AI資料中心拎包入住服務方案
供應商視野

是方電訊國際級中立水冷 AI資料中心拎包入住服務方案

2025-09-23
◤ 威聯通科技的智慧儲存產品部部長林淮森(右)、專案經理謝偉強,共同分享QNAP如何以HA Manager助力中小企業實現資料零遺失與業務不中斷。
Sponsors

QNAP讓HA技術普及化,守護中小企業營運零中斷

2025-09-22
I171d15
供應商視野

Arm 開放生態系 助企業搶攻 AI 商機

2025-09-18
下一篇文章
金融監理科技

智慧的金融監理時代

追蹤我們的 Facebook

近期文章

  • 【編輯室札記】實務階段的 AI 預算樣貌
  • 數位碳管理 × 材料創新 建構永續轉型
  • 【專訪】數位發展部資通安全署署長蔡福隆
  • 強化產業 AI 信任  AIEC 推 AI 在地化評測與第三方驗證
  • Fast-ID 驗轉中心上線 7 家銀行啟用跨機構身份驗證

📈 CIO點閱文章週排行

  • 2025 Moonfest Partners 1920 1080 V1 70% Ch

    當隱私至關重要:為什麼我選擇零知識雲端空間,而不是傳統大平台

    0 分享
    分享 0 Tweet 0
  • 透過 ISO 42001 規範進行 AI 與 Data 治理

    0 分享
    分享 0 Tweet 0
  • 9 大最佳安全防護實踐

    0 分享
    分享 0 Tweet 0
  • 從護國神山到護國群山,台灣半導體產業升級的大好機會

    0 分享
    分享 0 Tweet 0
  • CEO、CIO 迎接 AI 浪潮

    0 分享
    分享 0 Tweet 0
  • 將營業秘密保護內化為企業 DNA

    0 分享
    分享 0 Tweet 0
  • 組織轉型 驅動企業 AI 規模化

    0 分享
    分享 0 Tweet 0
  • 【醫療業】AI 的實踐與戰略抉擇:歐盟洞察對 CIO 的啟示

    0 分享
    分享 0 Tweet 0
  • CQL 系列報導 ─ CQL 應用與推廣策略解析

    0 分享
    分享 0 Tweet 0
  • Rapidus 二奈米成功試產有何意義?

    0 分享
    分享 0 Tweet 0

數位及平面

  • CIO Taiwan 網站
  • CIO 雜誌紙本
  • CIO 雜誌 HYREAD 版
  • CIO 雜誌 Zinio 版

關注社群

  • Line 加入好友
  • Facebook 粉絲頁

合作夥伴

  • CIO 協進會

關於我們

  • 公司介紹及工作機會
  • 隱私權政策

旗訊科技股份有限公司|統編:84493719|台北市 100 中正區杭州南路一段 15-1 號 19 樓|TEL: 886-2-23214335
Copyright © Flag Information Co.,Ltd. All Rights Reserved.

CIO Taiwan 歡迎你回來!

可用 使用者名稱 或 Email 登入

忘記密碼 註冊

歡迎註冊 CIO Taiwan 網站會員

請設定 Email 及 使用者名稱(使用者名稱不接受中文、將來無法更改)

欄位皆為必填 登入

找回密碼

請輸入 使用者名稱 或 Email 以重設密碼

登入
  • 登入
  • 註冊
沒有結果
查看所有結果
  • 活動
  • 影音
  • 最新文章
  • 產業速報
  • 新聞速寫
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 專欄
  • 精選文章
  • 原生現場
  • 供應商視野
  • 線上調查
  • CIO 雜誌
  • 電子報
  • 下載
  • 聯繫我們

© 2020 CIO Taiwan 版權所有

7/28 活動延期通知

因高雄市政府於7/28早上宣布全日停班停課,因此「智慧醫療研討會高雄場」活動延期舉辦。主辦單位將另行公告研討會相關訊息,歡迎報名參加!

您已閒置超過 3 分鐘了,為您推薦其他文章!點擊空白處、ESC 鍵或關閉回到網頁

I171d12 (1)

【金融業】永豐金獲資安獎肯定,如映科技 CyberEyes 助攻

面對全球資安威脅持續暴增,2020 年永豐金控將資訊安全治理全面提升至金控層級,

I171s04

CEO、CIO 迎接 AI 浪潮

文/張瑞雄(資訊系教授、台北商業大學前校長) 在當今的數位經濟中,人工智慧(AI

120063009091

環球晶徐秀蘭:半導體發展需強化材料自主與供應鏈韌性

文/鄭宜芬 矽晶圓大廠環球晶董事長暨 SEMI 全球董事會董事徐秀蘭 8 日於

12006300925

行銷自動化新階段 李宏毅談 Agentic AI 轉型價值

文/鄭宜芬 Agentic AI 將目標轉化為可執行的自主式應用與自動化工作流程

I171d04

CQL 系列報導 ─ CQL 應用與推廣策略解析

口述/孫培然·彙整/CIO編輯室 隨著醫療資訊的發展,臨床邏輯與品質衡量的需求日

【高科技業】AI 強化的影片展示 為B2B 帶來更強大的轉型動力

本文將深入探討 AI 強化影片內容如何革新 B2B 產品展示的模式,說明其帶來的

透過 ISO 42001 規範進行 AI 與 Data 治理

人工智慧管理系統(AIMS)國際標準 ISO 42001 相關的 AI 治理和

250911corey

資安院「資安週報」出爐了!

總主筆/施鑫澤 國家資通安全研究院正式推出「資安週報」,彙整並分析政府骨幹網路(

120063009232

從 AI 影像到飛控模組 臺灣無人機建構自主技術鏈

文/鄭宜芬 無人機近期成為軍工產業的焦點,為加強臺灣在全球無人機產業中的競爭力,

Ciotaiwan logo 600 white

文章分類

  • 產業速報
  • 專欄
  • 影音
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 原生現場
  • 精選文章
  • 趨勢分析
  • 供應商視野
  • 新聞速寫
  • 下載
  • Sponsors

熱門標籤

  • 最新文章
  • 雲端運算
  • 人工智慧
  • 數位轉型
  • 製造業
  • 物聯網
  • 資料與分析
  • 資安
  • 區塊鏈
  • 5G
  • 儲存
  • 基礎架構

活動

  • CIO價值學院 四堂課
  • 智慧醫療研討會 台北/高雄場
  • 金融科技高峰會 春季/秋季場
  • 製造業CIO論壇 台北/台中/高雄場
  • 商業服務科技論壇
  • 亞太CIO論壇
  • CISO資安學院 金融/醫療/新竹場
  • CIO Insight 調查

影音

  • 影音