您好,歡迎到訪!

探秘全球最大AI叢集xAI Colossus:122天建成,10萬張英偉達H100構築馬斯克AI願景

2024-10-31 01:34:57 2

IT之家 10 月 29 日訊息,科技媒體 servethehome 昨日(10 月 28 日)釋出博文,應 xAI 公司邀請,參觀了 Colossus 全球最大 AI 訓練叢集。

IT之家曾於今年 9 月報道,xAI 在 Supermicro 的幫助下,在短短 122 天時間內搭建 10 萬張英偉達 H100,而該公司計劃未來將再翻倍增加 10 萬張 GPU,其中 5 萬張為更先進的 H200。

xAI Colossus 配備了英偉達 HGX H100 伺服器,每臺伺服器內含 8 張 H100 GPU,所有伺服器都在 Supermicro 的 4U 水冷系統中執行,確保高效散熱。

每個機架可容納 8 臺伺服器,8 臺伺服器組成 1 個陣列,意味著每個陣列有 512 個 GPU。Colossus 叢集內有超過 1,500 個 GPU 機架,支援高頻寬的網路互聯。

每個 GPU 配備 400GbE 的網路介面控制器,確保每臺 HGX H100 伺服器達到 3.6 Terabit 每秒的乙太網頻寬。

xAI 採用了 Supermicro 的 4U 通用 GPU 系統,這些系統具備先進的液冷技術,提升了散熱效率,確保了高效能運算的穩定性。液冷設計使得系統在執行高負荷任務時,能夠保持較低的溫度,延長裝置使用壽命。

此次展示獲得了埃隆・馬斯克及其團隊的特別批准,由於構建全球最大 AI 叢集的敏感性,部分內容在影片中進行了模糊處理,Supermicro 贊助了這次巡展,顯示出其在行業中的重要地位。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。