愛伊米

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

3月21日,中國本土AI創新企業寒武紀正式釋出了新款訓練加速卡“

MLU370-X8

”,搭載雙晶片四芯粒封裝的思元370,整合寒武紀MLU-Link多芯互聯技術,主要面向AI訓練任務。

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

寒武紀MLU370-X8智慧加速卡

首次整合了雙晶片四芯粒的思元370,也就是每張卡兩顆晶片,每顆晶片內封裝兩個Die

,因此可提供兩倍于思元370加速卡的記憶體、編解碼資源。

架構基於Cambricon MLUarch03,支援AI訓練加速中常見的

FP32、FP16、BF16、INT16、INT8、INT4

資料格式計算,峰值效能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

該卡採用7nm製造工藝,整合48GB LPDDR5記憶體

,記憶體頻寬614。4GB/s,

PCIe 4.0 x16系統介面,整卡最大訓練功耗250W

,全高全長雙插槽設計,系統被動散熱。

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

單卡架構圖

透過MLU-Link多芯互聯技術,提供卡內、卡間互聯功能,並專門設計了MLU-Link橋接卡,可實現4張加速卡為一組、8顆思元370晶片全互聯。

每張加速卡通訊吞吐效能200GB/s,頻寬為PCIe 4。0的大約3。1倍,可高效執行多芯多卡訓練、分散式推理任務。

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

4卡橋接

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

單機8卡部署配置

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

4卡橋接拓撲

根據官方資料,Cambricon NeuWare SDK實測,

在常見的4個深度學習網路模型上,MLU370-X8單卡效能與主流350W RTX GPU相當。

多卡加速,藉助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的最佳化,

8卡環境下達到更優的並行加速比,YOLOv3、Transformer、BERT、ResNet101訓練任務中,8卡並行平均效能達350W RTX GPU的155%。

寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款,從規格來看,

350W功耗的目前只有RTX 3090、RTX 3080 Ti。

當然,一個是專用AI加速卡,一個是GPU通用遊戲卡,其實沒有太大可比性。

MLU370-X8產品定位中高階,與高階訓練產品思元290、玄思1000相互結合,進一步豐富了寒武紀的訓練算力交付方式,同時與基於思元370芯粒(chiplet)技術構建的MLU370-X4、MLU370-S4智慧加速卡協同,形成完整的雲端訓練、推理產品組合。

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

單卡效能對比

效能1.55倍於NV 350W RTX!寒武紀釋出全新AI訓練GPU:8卡並行

8卡效能對比