效能1.55倍於NV 350W RTX！寒武紀釋出全新AI訓練GPU：8卡並行

3月21日，中國本土AI創新企業寒武紀正式釋出了新款訓練加速卡“

MLU370-X8

”，搭載雙晶片四芯粒封裝的思元370，整合寒武紀MLU-Link多芯互聯技術，主要面向AI訓練任務。

寒武紀MLU370-X8智慧加速卡

首次整合了雙晶片四芯粒的思元370，也就是每張卡兩顆晶片，每顆晶片內封裝兩個Die

，因此可提供兩倍于思元370加速卡的記憶體、編解碼資源。

架構基於Cambricon MLUarch03，支援AI訓練加速中常見的

FP32、FP16、BF16、INT16、INT8、INT4

資料格式計算，峰值效能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

該卡採用7nm製造工藝，整合48GB LPDDR5記憶體

，記憶體頻寬614。4GB/s，

PCIe 4.0 x16系統介面，整卡最大訓練功耗250W

，全高全長雙插槽設計，系統被動散熱。

單卡架構圖

透過MLU-Link多芯互聯技術，提供卡內、卡間互聯功能，並專門設計了MLU-Link橋接卡，可實現4張加速卡為一組、8顆思元370晶片全互聯。

每張加速卡通訊吞吐效能200GB/s，頻寬為PCIe 4。0的大約3。1倍，可高效執行多芯多卡訓練、分散式推理任務。

4卡橋接

單機8卡部署配置

4卡橋接拓撲

根據官方資料，Cambricon NeuWare SDK實測，

在常見的4個深度學習網路模型上，MLU370-X8單卡效能與主流350W RTX GPU相當。

多卡加速，藉助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的最佳化，

8卡環境下達到更優的並行加速比，YOLOv3、Transformer、BERT、ResNet101訓練任務中，8卡並行平均效能達350W RTX GPU的155％。

寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款，從規格來看，

350W功耗的目前只有RTX 3090、RTX 3080 Ti。

當然，一個是專用AI加速卡，一個是GPU通用遊戲卡，其實沒有太大可比性。

MLU370-X8產品定位中高階，與高階訓練產品思元290、玄思1000相互結合，進一步豐富了寒武紀的訓練算力交付方式，同時與基於思元370芯粒（chiplet）技術構建的MLU370-X4、MLU370-S4智慧加速卡協同，形成完整的雲端訓練、推理產品組合。

單卡效能對比

8卡效能對比

愛伊米