英偉達迎來最強競爭對手？

最近，人工智慧領域權威跑分榜單MLPerf更新了1。1版，主要針對雲端和邊緣端的推理效能。

MLPerf是由ML Commons推出的效能測試榜單。在人工智慧技術發展迅速的今天，不同的針對人工智慧加速的晶片也是層出不窮，於是如何能有一個較好的標準跑分（benchmark）平臺就很重要，有了這樣的平臺，使用者才能以較為公平和合理的方式去比較不同晶片的人工智慧效能。具體來說，MLPerf對於不同的測試組別（訓練，伺服器推理，終端推理等）提供了一系列標準的測試網路，並且由各個硬體公司上傳可驗證的跑分結果，這些結果在經過驗證後，就由ML Commons總結整理並上傳到MLPerf的榜單上。

這次公佈的MLPerf 1。1榜單中，基本可以分為幾大勢力：首先，是以Nvidia的GPU為核心加速卡的方案，由各種不同的廠商（包括Nvidia自己，以及超微、聯想、戴爾、HP等整機廠商）實現的整機去跑分；其次是高通的雲端加速卡方案，由高通自己提交跑分結果；第三類是Intel的CPU方案；第四類則是一些初創公司的方案。因此，在MLPerf 1。1的結果中，我們認為最值得關注的，就是高通與Nvidia之間的競爭。事實上，在一些測評專案中，高通的方案已經實現了比Nvidia更高的結果，這也說明在伺服器推理市場，Nvidia遇到了一個強力的競爭對手，未來無法再高枕無憂。

MLPerf：高通與Nvidia的競爭

目前，Nvidia這一代的主要人工智慧加速方案包括A100和A30。其中，A100是Nvidia的旗艦級GPU，同時針對推理和訓練市場，算力高達600 TOPS （INT8精度），其功耗則根據使用記憶體的區別從250W-400W不等。

另一方面，A30則是Nvidia主要針對推理市場的GPU產品，其INT8峰值算力可達330 TOPS，約為A100的一半，而Nvidia在其官方資料中稱A30在執行機器學習演算法時的實際效能約為A100的三分之二。功耗方面，A30的最大功耗約為165W。

在高通方面，Cloud AI 100晶片於今年上半年正式發貨，其INT8最大算力可達400 TOPS，最大功耗（PCIe版本）則75W。根據高通公佈的資料，其設計採用了多核架構，每個AI Core上擁有8MB的SRAM，最多在晶片上可以整合16個AI Core，並且這些AI Core會共享LPDDR4X DRAM，以及PCIe介面。值得注意的是，高通的Cloud AI 100並沒有像Nvidia一樣使用HBM2記憶體介面，而是使用了功耗和頻寬都更低的LPDDR4X介面，這意味著高通需要能更好地管理記憶體才能擺脫其在記憶體頻寬方面的劣勢。

高通Cloud AI 100架構

在MLPerf 1。1中，高通的表現可圈可點。在推理分類下的各專案中，高通提交了ResNet 50（用於影象分類），SSD（用於物體檢測）以及BERT（用於自然語言處理任務）的結果。在ResNet 50的結果中，高通裝有16塊75W Cloud AI 100 加速卡的主機可以實現每秒342011次推理，而Nvidia提交的DGX主機結果中（包含8塊400W的A100 GPU），ResNet 50的推理吞吐量為每秒313516次推理，因此高通不僅推理吞吐量比Nvidia的旗艦GPU A100結果高了10%，而且總功耗僅為Nvidia方案的三分之一左右。在和Nvidia A30的對比中，高通的Cloud AI 100同樣可以以A30一半左右的功耗實現比A30高10%左右的ResNet 50推理吞吐量。

另一方面，在目標檢測SSD方面，高通16X Cloud AI 100的效能則比Nvidia 8X A100低了10%左右。而在自然語言BERT專案中，高通16X Cloud AI 100的效能則大約是Nvidia 8X A100的一半。這些結果表明，在主流機器視覺任務中，高通的16X Cloud AI 100已經能實現和Nvidia 8X A100基本相同甚至更好的效能，而在BERT等自然語言處理任務中，Cloud AI 100則仍然距離A100有相當的差距。這其實從高通Cloud AI 100的設計中也可以看出端倪，它使用8MB每核心的片上記憶體搭配LPDDR4X記憶體介面，在模型較小的機器視覺任務（例如ResNet-50和SSD）中已經夠用，記憶體不會成為其瓶頸；然而對於模型較大的自然語言處理模型如BERT中，LPDDR4X介面仍然成為了高通AI Cloud 100的瓶頸，而使用HBM2系列介面的Nvidia A100則有優勢。

推理市場中，高通對Nvidia會造成威脅嗎

如前所述，高通的Cloud AI 100在機器視覺任務中都能以更低的功耗實現和Nvidia A100方案接近，或比A30更高的效能。雖然Cloud AI 100在自然語言處理方面離Nvidia A100方案的效能有一些差距（能效比上仍然是Cloud AI 100更好），但是目前在推理方面，事實上機器視覺已經是一塊巨大的市場，因此高通在這個領域有可能會成為強而有力的競爭者。

如果我們細數機器視覺領域對於推理效能有較強需求的領域，首當其衝的可能就是自動和輔助駕駛領域。在自動和輔助駕駛領域，需要大量的目標檢測，這就需要大量的機器視覺算力支援。高通的Cloud AI 100擁有更好的能效比和相當的效能，加上其成本預計會遠遠低於基於HBM2記憶體的A100 GPU，因此可能會與Nvidia在這個領域有激烈的競爭。自動駕駛領域擁有較高的質控和渠道壁壘，而高通作為在半導體供應鏈中已經有非常深厚積累的巨頭，在這個領域顯然要比其他做自動駕駛晶片的初創公司更有競爭力，因此可能會給這個領域帶來新的市場格局。當然，在自動駕駛領域高通即使能戰勝Nvidia，也不代表高通能佔領整個自動駕駛市場：隨著目前各大智慧駕駛公司都紛紛開始自研晶片，未來自動駕駛市場中究竟是第三方晶片方案還是第一方晶片方案更是主流，仍然有待觀察。

除了智慧駕駛之外，另一個重要的推理市場是智慧終端，例如工業機器人和智慧攝像頭。這些領域對於功耗和能效比都有較強的需求。高通顯然在設計晶片的時候將這些市場納入了考慮，因此Cloud AI 100除了功耗75W，400TOPS算力的PCIe版本之外，還有功耗15W，算力70 TOPS和功耗25W，算力200 TOPS的低功耗版本，這些版本非常適合工業機器人和智慧攝像頭應用。而Nvidia同樣針對該市場的Xavier系列晶片的能效比則遠遜於Cloud AI 100，因此高通在這個領域也有優勢。

當然，高通即使能在競爭中勝過Nvidia，也未必能真正主導這個市場。人工智慧推理的一大市場，即中國市場，在國際形勢和國內對於半導體產業大力扶持的背景下，究竟會使用外國公司的方案，還是使用國內公司的方案，對於高通究竟能在這個市場中佔有多大份額也有很大影響。

訓練市場如何戰勝Nvidia

在人工智慧訓練市場，從MLPerf早些公佈的訓練跑分結果我們可以看到，Nvidia的單卡效能仍然遠遠領先Graphcore，Habana等競爭對手。另外，高通似乎目前尚沒有公佈在這個領域的計劃。然而，在分散式訓練結果中，我們可以看到Nvidia的訓練跑分結果和谷歌的TPU類似。分散式訓練結果主要考慮如何透過大規模的分散式計算來實現訓練速度的提升，它一個系統工程，需要軟體、網路通訊和加速卡晶片的協同設計才能實現最佳效能。雖然Nvidia的單卡效能仍然很強，但是在訓練領域，分散式訓練效能事實上甚至比單卡效能更有意義，因此需要很強的系統工程能力才能實現超越。

當然，從另一個角度來說，由於這是一個系統工程，因此如果公司在系統中的其他元件有優勢的話，可以彌補晶片方面的短板。例如，谷歌的晶片部門雖然成立時間遠少於Nvidia，但是憑藉其在系統工程領域的深厚積累，可以在分散式訓練領域實現和Nvidia接近的結果。此外，來自北大和鵬城實驗室基於華為Kunpeng CPU+Ascend加速卡+mindspore軟體框架的分散式訓練結果也值得肯定，在自然語言處理領域，BERT訓練結果的跑分華為Ascend 128卡的結果與介於64卡Nvidia A100和64卡TPU之間，而在機器視覺領域，Ascend 1024卡的結果與A100 1024卡的結果接近。因此，在可使用的晶片工藝收到限制的情況下，中國晶片公司考慮從系統工程的角度（例如，透過與該領域有深厚積累的各大IT公司合作）來實現對於Nvidia GPU在訓練領域的趕超或許是一個可行的思路。

愛伊米

英偉達迎來最強競爭對手？

相關文章

推薦文章