• 登入
  • 註冊網站會員
CIO Taiwan
  • 活動
  • 影音
  • 趨勢分析
  • CIO 雜誌
  • CSO精選
  • 電子報
  • 下載
  • 聯繫我們
沒有結果
查看所有結果
CIO Taiwan
沒有結果
查看所有結果
首頁 供應商視野

戴爾推出極致大數據平臺

2023-11-08
分類 : 供應商視野
0
A A
0
戴爾大語言模型

Image by pch.vector on Freepik

大語言模型浪潮來襲 儲存設備重要性日增

面對大語言模型時代來臨,戴爾科技集團建議從高可擴充性、高效能、高可靠度、成本最佳化等角度,選擇最合適的儲存設備。

採訪/施鑫澤‧文/林裕洋


戴爾科技
◤ 戴爾科技集團技術副總經理李百飛。

2022 年底 ChatGPT 3 問世之後,展現出前所未有的強大回應能力,也引爆第二波 AI 革命,讓生成式 AI、大語言模型等成為時下最熱門的技術。然而多數品牌業者在討論 AI 解決方案時,都將重心放在 GPU 卡的數量、等級等,卻往往忽略整體基礎架構需相互搭配的重要性,最終導致 AI 專案效益不如預期。

戴爾科技集團技術副總經理李百飛指出,大語言模型與生成式 AI 技術對於基礎設施的需求極高 ,就如汽車必須要透過引擎、底盤、方向盤等之間的相互搭配,才能發揮最大效果。一套要能滿足 AI 專案需求的基礎架構,需涵蓋算力、網路、儲存設備、管理等四大面向,在算力部分需要大量高性能的 GPU 主機與適配的 CPU 伺服器等,負責集群管理、登錄、資料預處理、模型訓練、精調、推理、資料視覺化等工作。

在網路架構部分,則需高性能 GPU 運算網路、儲存網路、管理網路等。至於儲存設備部分,則需考量儲存原始素材、訓練資料集、模型檔、訓練與精調中的過程資料等,所以必須仰賴高性能分散式並行檔案儲存系統,來滿足 TB 級到 PB 級資料的處理能力。最後在管理軟體部分,則需要 GPU 計算集群管理、資源調度、大語言模型部署、安全護欄等平台軟體解決方案協助。

內容目錄 隱藏
大語言模型浪潮來襲 儲存設備重要性日增
大語言模型訓練資料量驚人 考驗儲存設備能耐
以 Dell PowerScale 為核心
可靠度達到99.999%

大語言模型訓練資料量驚人 考驗儲存設備能耐

Open AI 投入 ChatGPT 多年,ChatGPT 3 能展現令人驚訝不已的能力,關鍵在於運用大量資料進行訓練。根據 Open AI 提供資料顯示,GPT 3 訓練資料集規模達到 8,000 億 Token 語料庫,而最近發表的 GPT 4,訓練資料集規模達到 13 兆 Token 語料庫。除此之外,市面上有不少備受推崇的開源大語言模型,Bloomberg GPT 訓練資料集規模為 7,000 億 Token 語料庫、Llama2 訓練資料集規模為 2 兆 Token 語料庫、ChatGLM2 訓練資料集規模為 1.4 兆 Token 語料庫。

[ 推薦閱讀:生成式 AI 成熟度模式 ]

換句話說,大語言模型與傳統 AI 模型相比,在訓練資料集規模更大的狀況下,很難再利用傳統 GPU 伺服器內建的快取記憶體,減少對集中儲存設備的讀取性能需求。特別是大語言模型訓練時間往往長達數星期到數個月以上,所以儲存設備需要具備定期寫入檢查點(Checkpoint),並提供集群故障恢復功能,才能確保 AI 模型訓練過程中的可靠度、穩定度與斷點可恢復性。特別是當大語言模型參數規模愈大時檢查點的數據量也會狂暴增加。

李百飛表示,一般來說,文本類的大語言模型的訓練資料集規模,大約在數十 TB, 若是多模態 AI 大模型則需要更大規模的文件/圖像/語音/視頻訓練資料。以 GPT 3 使用 1,750 億個參數為例,其文本型訓練資料量為 45TB,模型參數檢查點的一次資料儲存量達到 2.45TB。而 GPT 4 使用 100兆個參數,多模態訓練資料量是屬 EB 級別,其檢查點一次資料儲存量是 PB 級別,綜觀此等訓練資料量早已超過 GPU 伺服器的快取容量。因此,當 AI 模型訓練過程發生異常中斷狀況時,便需要透過讀取設備中的 Checkpoint 檢查點資料,才能讓 AI 模型訓練得以持續進行。因應此需求,特別推出能滿足大語言模型訓練需求的極致大數據平臺,具備極快效能、極大擴充性、極高可用性、開放與開源、極致性價比等特性。

以 Dell PowerScale 為核心

李百飛指出,戴爾極致大數據平台是以 Dell PowerScale 數據湖儲存解決方案為核心,具備整合資料收集、保存、分析與保護等功能,提供多雲環境中佈署的能力,可以有效整合不同來源的資料,並透過清洗、過濾、建模等步驟後,再依照不同資料屬性與安全性進行分類與處置,滿足後續大語言模型訓練之用。這套儲存架構平台,符合 Gartner 最新定義的 Data Fabric 框架,讓資料流程得以簡化,進而提高資料的價值與降低基礎架構維運成本支出。

Dell PowerScale 數據湖儲存解決方案是市場上少數同時完整支援 NFS、SMB/CIFS、S3/SWIFT/REST API、FTP 乃至 HDFS 等所有協定的產品,能夠有效整合不同來源的資料型態,完全抹除資料孤島的問題。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]

「大語言模型資料量非常驚人,訓練資料集規模往往超過數千億Token 語料庫以上,因此儲存設備需要擁有極大的擴充能力與資料讀寫速度。」李百飛解釋:「Dell PowerScale 最多可擴充到 252 台節點,以F900 節點為例儲存總容量可達到 186PB,資料讀取速度可達到 2,347GBps,若結合 Auto ILM 功能總儲存量可達 EB 級別,絕對能滿足大語言模型的訓練需求。」

可靠度達到99.999%

PowerScale 數據湖儲存解決方案採用網格、多節點、多冗餘與 Auto ILM 的設計架構,提供高性能分散式並行檔案儲存系統,單一儲存集群可混搭高性全快閃節點與大容量磁碟節點,支援獨一的全節點全域資料消重壓縮功能,主打能支撐在邊緣、資料中心或雲端中 的工作負載,具備優異效能與龐大容量,可滿足 現今與未來的現代化工作負載需求。換句話說,PowerScale 非常適合儲存及管理不同種類的非結構化資料,在 Big Data 分析、HPC、基因組學、多媒體等應用都有大量使用案例。前面提到,PowerScale 支 援 NVIDIA GPUDirect Storage 功能,可加速大模型語言的訓練速度。根據集團內部測試結果顯示,NFS over RDMA 相較於 TCP 協定,整體效能可提升 10~25%,而用戶端 CPU 負載可下降 5~30%。

李百飛指出,另外,這款產品具備自動化資料生命週期管理的功能,透過資料分層政策,兼顧資料讀寫性能、儲存容量與降低儲存成本的需求。特別是 PowerScale 儲存平台的可靠度達到 99.9999%,在硬體設備擴充、軟體升級時,可透過 Failover 機制享有資料服務不中斷的優點。值得一提,我們也與 AWS 平台合作,推出 APEX Storage for AWS 服務,讓企業儲存成本可創造 3~4 倍的效能等。


(本文授權非營利轉載,請註明出處:CIO Taiwan)

標籤: AIDellDell PowerScale儲存設備大數據平台大語言模型戴爾生成式AI
上一篇文章

熊市之後的蛻變:開創虛實交互的新商模

下一篇文章

智慧的金融監理時代

相關文章

I168d17 Web
供應商視野

PTC 主打垂直產業整合扮演企業最佳夥伴

2025-06-09
I168d18 Web
供應商視野

優必達為繁體中文設計的 Lilith-3.3-70B!大語言模型,雙管齊下搶攻全球 AI 商機

2025-06-09
Image (6)
供應商視野

數位轉骨、聯盟進化:保險產業邁向智慧新篇章

2025-06-02
下一篇文章
金融監理科技

智慧的金融監理時代

追蹤我們的 Facebook

近期文章

  • 統一資訊強化內部開發效能 加速推進數位與雲端轉型
  • Check Point Software 以 AI 強化邊緣防禦,全新分支安全閘道效能提升四倍
  • 華碩領航資安專利布局 榮獲後量子密碼CAVP認證
  • 瀚錸科技「AI 智庫小幫手」
  • Hitachi Vantara推出全新資料管理軟體解決方案VSP 360,為用戶提供簡化且順暢的使用體驗

📈 CIO點閱文章週排行

  • TA-DIF 打造可解釋可部署 AI OT 安全異常偵測機制

    TA-DIF 打造可解釋可部署 AI OT 安全異常偵測機制

    0 分享
    分享 0 Tweet 0
  • ISO 27701 新版將面世,PIMS 標準出新版,個資保護國內外升級

    0 分享
    分享 0 Tweet 0
  • AI 代理驅動認知 ERP 發展

    0 分享
    分享 0 Tweet 0
  • 雷虎無人艇失聯與尋獲事件,挑戰的關鍵技術

    0 分享
    分享 0 Tweet 0
  • 白宮發布重要的無人機政策行政命令的啟示及產業商機

    0 分享
    分享 0 Tweet 0
  • 從本土創新到國際舞台 迎接台灣金融 AI 新紀元

    0 分享
    分享 0 Tweet 0
  • 作業系統(OS)安全

    0 分享
    分享 0 Tweet 0
  • 【專訪】國立陽明交通大學校長林奇宏

    0 分享
    分享 0 Tweet 0
  • 從自動化邁向自主化,次世代供應鏈持續演進

    0 分享
    分享 0 Tweet 0
  • NetApp 創新突破為醫療業建構 AI 雲平臺

    0 分享
    分享 0 Tweet 0

數位及平面

  • CIO Taiwan 網站
  • CIO 雜誌紙本
  • CIO 雜誌 HYREAD 版
  • CIO 雜誌 Zinio 版

關注社群

  • Line 加入好友
  • Facebook 粉絲頁

合作夥伴

  • CIO 協進會

關於我們

  • 公司介紹及工作機會
  • 隱私權政策

旗訊科技股份有限公司|統編:84493719|台北市 100 中正區杭州南路一段 15-1 號 19 樓|TEL: 886-2-23214335
Copyright © Flag Information Co.,Ltd. All Rights Reserved.

CIO Taiwan 歡迎你回來!

可用 使用者名稱 或 Email 登入

忘記密碼 註冊

歡迎註冊 CIO Taiwan 網站會員

請設定 Email 及 使用者名稱(使用者名稱不接受中文、將來無法更改)

欄位皆為必填 登入

找回密碼

請輸入 使用者名稱 或 Email 以重設密碼

登入
  • 登入
  • 註冊
沒有結果
查看所有結果
  • 活動
  • 影音
  • 最新文章
  • 產業速報
  • 新聞速寫
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 專欄
  • 精選文章
  • 原生現場
  • 供應商視野
  • 線上調查
  • CIO 雜誌
  • 電子報
  • 下載
  • 聯繫我們

© 2020 CIO Taiwan 版權所有

7/28 活動延期通知

因高雄市政府於7/28早上宣布全日停班停課,因此「智慧醫療研討會高雄場」活動延期舉辦。主辦單位將另行公告研討會相關訊息,歡迎報名參加!

您已閒置超過 3 分鐘了,為您推薦其他文章!點擊空白處、ESC 鍵或關閉回到網頁

互動資通行銷處協理錢芸霞

互動資通:協同平台需求大 私有雲成首選

第11屆金融業CIO高峰會 秋季場 在全台民眾努力配合中央疫情指揮中心的防疫政策

慧誠智醫總經理余金樹

慧誠智醫:醫院扮演照護核心 智慧城市成功關鍵

2021智慧醫療研討會高雄場會後報導 在全球吹起智慧城市發展風潮下,醫院扮演著大

1200 A2a3445 1

資安即國安2.0 扶植資安產業發展

公部門高階資訊人員資安共識營 會後報導 日益嚴重的資安威脅,已成為全球關注的議題

1200 202010080181

專訪光田綜合醫院總院長王乃弘

以病患需求為中心 勾勒AI智慧醫院 無論何種形式的智慧醫療,都應該要從使用者的角

1200 Man Wearing Smart Glasses Virtual Scanning Technology Glitch Effect

機器身分帶來的安全隱患持續增長

隨組織對於數位投資之關注度增加,我們也發現了潛在的安全隱患;至今近過半的亞太地區

網頁文章首圖1200x630 (5) 拷貝

因應市場變化 阿瘦推動轉型有成

第七屆商業服務科技論壇 以「健康、舒適、美觀、創新」為理念,全力促進顧客足下與生

Ciotaiwan Logo 600 White

文章分類

  • 產業速報
  • 專欄
  • 影音
  • 風雲人物
  • CXO分享
  • 產業瞭望
  • 原生現場
  • 精選文章
  • 趨勢分析
  • 供應商視野
  • 新聞速寫
  • 下載
  • Sponsors

熱門標籤

  • 最新文章
  • 雲端運算
  • 人工智慧
  • 數位轉型
  • 製造業
  • 物聯網
  • 資料與分析
  • 資安
  • 區塊鏈
  • 5G
  • 儲存
  • 基礎架構

活動

  • CIO價值學院 四堂課
  • 智慧醫療研討會 台北/高雄場
  • 金融科技高峰會 春季/秋季場
  • 製造業CIO論壇 台北/台中/高雄場
  • 商業服務科技論壇
  • 亞太CIO論壇
  • CISO資安學院 金融/醫療/新竹場
  • CIO Insight 調查

影音

  • 影音