金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
他來了,他來了。
手持
GPU
,一身
黑皮衣
、下裝牛仔褲、黃面板長頭髮,黑框眼鏡之下擋不住硬漢氣場。
但他不是英偉達的老黃。
他是曾經老黃左膀右臂之一的老張——
張建中
,James,此前在英偉達中國區任職一把手長達15年時間。
現在更被人熟知的頭銜,是國內GPU公司
摩爾執行緒
的創始人兼CEO。
而這次剛剛捂熱的GPU,已經是他在今年量產上市的
第2個
了——
時隔,僅
半年
之久。
不僅如此,附著在這塊GPU上的標籤還有更多:
國產
、
全功能
、
全球首個
、
中高階
……
而且基於它,張建中更是釋出了
國內首個
中高階
遊戲顯示卡
。
講真,很難想象這般“速度”是由一家剛剛成立2年的公司所創造的。
由此不免讓人心生疑問:
在做到快的同時,質量和效能上是否也一併跟上了呢?
我們不妨一同來看看。
全球首個支援PCIe介面的全功能GPU
摩爾執行緒的第二個國產全功能GPU,名為
“MT-春曉”
。
張建中也是將它作為打頭陣的產品釋出。
據瞭解,春曉集成了220億個電晶體,內建4096MUSA架構通用計算核心以及128張量計算核心,可以支援FP32、FP16和INT8等計算精度。
其它重點引數如下:
GPU核心頻率:1。8GHz
FP32計算能力:14。4 TFLOPS
INT8計算能力:57。6 TOPS
視訊記憶體寬頻:448GB/s
視訊記憶體型別:GDDR6
張健中在現場還提及,春曉解鎖了一項“全球第一”:
因為它是業內唯一支援PCIe Gen5介面的GPU。
(許多廠商已經達成共識,PCIe Gen5將會是未來消費級以及企業級儲存裝置的重點發展方向。)
那麼與半年前摩爾執行緒所釋出的“蘇堤”GPU相比,二者又有何區別?
張建中表示在摩爾執行緒GPU四大引擎方面,春曉做到了全面升級:
現代圖形渲染引擎效能最高提升3-5倍
AI計算加速引擎效能最高提升4倍
智慧多媒體引擎效能最高提升4倍
物理模擬引擎效能最高提升2。5倍
至於為什麼摩爾執行緒要在半年時間就將自家GPU推陳出新,這個問題我們請教了下張健中:
我們第一個全功能GPU蘇堤,實際上屬於中低端處理器,在GPU行業中可以滿足國內國產化應用的需求。
但對於大部分主流使用者,他們還是期待更高效能的GPU,因此我們快速釋出了春曉,去滿足高階的遊戲玩家,滿足更多使用者對圖形和計算的需要。
如此一來,我們的產品就能夠覆蓋高中低端的所有使用者。
而提到了遊戲,張建中基於春曉GPU,便釋出了另一款“國內第一”的產品。
國內首款遊戲顯示卡
其實摩爾執行緒在半年前基於蘇堤也釋出過顯示卡產品MTT S60。
但這張顯示卡的“用武之地”似乎更多面向的是產業,也就是B端。
而這次基於春曉打造的這張顯示卡
MTT S80
,則是能讓更多大眾摸得著的那種了——
國內首款遊戲顯示卡
。
在現場,張建中還用了一個比較有意思的詞來形容它:
“國潮”
。
從效能方面來看,其擁有的4096個可程式設計MUSA核心,在1。8GHz的主頻下,能夠提供14。4TFLOPS的單精度浮點算力。
與春曉相似的,MTT S80也是業內首款配備PCIe Gen5介面的顯示卡產品:
配合16GB GDDR6大容量高速視訊記憶體,再輔以8K超高畫質與1080P 360Hz高重新整理率顯示輸出能力,能為遊戲玩家帶來很好的體驗。
似乎“光說不練”並不是摩爾執行緒釋出會的風格,跟上次一樣,張建中同樣是在現場直接上效果。
例如它已經在Windows環境中適配了
《暗黑破壞神3》
,而這款遊戲對於顯示卡效能要求還是較高的那種。
而有了MTT S80的加持,即便全程是在4K高畫質畫質的情況下,FPS也能保持在60左右
(FPS越高畫面越流暢)
。
除此之外,張建中還展示了賽車遊戲愛好者鍾愛的
《極品飛車》
,在MTT S80下的效果,可以說是相當的絲滑了:
據瞭解,目前MTT S80已經在Windows驅動內建了MUSA DirectX Driver模組,並完成了對數十款主流遊戲的適配。
更重要的是,張建中說這款顯示卡將會在
雙十一
當日
限量開售
。
那麼到手後的實際效果如何、價格香不香,也是可以期待一下了。
新款全功能伺服器GPU產品
在伺服器方面的產品,摩爾執行緒這次也有更新——
MTT S3000
。
同樣的,它也是基於MUSA架構、春曉GPU,算力可以覆蓋圖形渲染、影片處理、深度學習的完整MUSA軟體棧。
支援的場景包括AI推理和訓練、雲遊戲、雲渲染、影片雲、數字孿生、數字內容創作等。
從效能上來看,MTT S3000包含了4096個MUSA流處理核心及128個專用張量計算核心,電晶體規模達到220億。
其執行頻率為1。9GHz,視訊記憶體位寬256bit;搭配32GB GDDR6視訊記憶體,頻寬為448GB/s;可以支援FP32、FP16、INT8等多種計算精度,其中FP32算力可達15。2TFLOPS。
在張建中看來,
生態協作對於AI應用的推進至關重要
。
因此,MTT S3000還相容了PyTorch、TensorFlow、百度飛槳
(PaddlePaddle)
、計圖
(Jittor)
等多種主流深度學習框架,並實現了對Transformer、CNN、RNN等數十類AI模型的加速。
而且MTT S3000可以說是做到了“與時俱進”,最近大火的AI作畫:Disco Diffusion、Stable Diffusion也是同樣能夠hold住。
不僅僅是硬體的更新
而除了上述的硬體產品之外,縱觀正常釋出會,
“軟硬體結合”
也是摩爾執行緒的一大特點。
這一點其實也不難理解,在我們與張建中交流的過程中,他也道出了緣由:
軟體生態是推動GPU計算普及的關鍵。
GPU的研發體系是非常複雜的,有了硬體才能去開發軟體,軟體在硬體上跑起來了之後,還需要做更多最佳化;最佳化之後又會發現架構存在缺陷,反過來又得最佳化硬體。
硬體、軟體是互相迭代、不停提升的一個過程。
為此,摩爾執行緒這次以MUSA架構為核心,摩爾執行緒釋出了完備的
MUSA軟體棧
。
其目的就是服務廣大的開發者和終端使用者。
除此之外,摩爾執行緒在GPU雲原生、元宇宙、AIGC方面均有相應的新動作。
One More Thing
還是聚焦在張建中這次的outfit:
這個皮夾克,嗯,著實有點意思。
— 完 —
量子位 QbitAI · 頭條號簽約