我們知道,Intel Xe GPU架構分為四個層級,或者說四種微架構,其中以上是的Xe LP低功耗版僅供核顯、入門獨顯,即將到來的Xe HPG高效能圖形版面向中高階遊戲顯示卡,Xe HP高效能版適合加速計算、AI、ML等但所知最少,
Xe HPC高效能計算版則是最頂級的存在,主攻大型資料中心、超算。
Xe HPG微架構的Alchmest(DG2)之前已經聊過了,這裡來看看Xe HPC和首款產品Ponte Vecchio,競爭對手是NVIDIA A系列、AMD Instinct系列。
當然,它們距離普通人非常非常遙遠,但卻是技術實力的最高體現。
Xe HPC架構的基礎也是Xe核心(Xe Core),但因為面向的是計算而非圖形,內部結構有所不同,包括8個512-bit向量引擎、8個4096-bit矩陣引擎,數量對比Xe HPG都減半,但位寬分別翻了一倍、兩倍,算力更兇猛。
向量引擎每時鐘週期可執行256個FP32、256個FP64、512個FP16等資料操作,矩陣引擎則每時鐘週期支援2048個FP32、4096個FP64、4096個BF16、8192個INT8。
與向量引擎、矩陣引擎搭檔的,是一個
更寬的寬載入/儲存單元
,每個時鐘週期取回512位元組資料。
每個Xe核心整合512KB一級資料快取,這是目前業內最大的
,而且可以透過軟體配置作為暫存區使用,又稱共享內部視訊記憶體。
Xe核心的上一層級叫做“切片”(Slice)
,不同於Xe HPG上的渲染器切片(Slice),畢竟一個是做計算,一個是做圖形渲染。
Xe HPC每個切片整合多達16個Xe核心
,四倍於Xe HPG渲染切片的規模,同時還有
8MB一級快取、16個光追單元、一個硬體上下文(Hardware Context)單元
,其中光追支援光線遍歷、邊界框相交、三角形相交,提供固定函式計算。
硬體上下文單元大家可能比較陌生,它能讓GPU同時執行多個應用,而無需昂貴的基於軟體的文字切換。
切片的上一級則是“堆疊”(Stack),至此才算一個完整的GPU。
一個堆疊包含4個切片,因此總計64個Xe核心、64個光追單元、4個硬體上下文。
同時,堆疊內還有
大規模二級快取、4個HBM2e記憶體控制器、1個媒體引擎、8個Xe鏈路
,以及複製引擎、PCle控制器。
Xe HPC架構是可以輕鬆擴充套件的,
支援多堆疊設計,屬於業內首創,依靠的是EMIB封裝和堆疊間互連通道
,可保持堆疊之間的記憶體一致性。
比如
這是雙堆疊,整體規模直接翻番
,它就是後邊要說的首款Ponte Vecchio,但看架構圖,似乎不支援四堆疊。
不同的Xe HPC GPU之間透過Xe鏈路互連,支援最多8顆並行
,算力直接暴力乘以8。
Ponte Vecchio作為基於Xe HPC架構的首款產品,一切的一切都是全新的,包括驗證方法、軟體、可靠性方法、訊號完整性機制、互連、供電、封裝、I/O架構、記憶體架構、IP架構、SoC架構。
Ponte Vecchio是個龐然大物,整合電晶體數量突破1000億個,使用5種不同的製造工藝,在內部封裝了多達47個不同的單元(Tile),包括計算單元、Rambo快取單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元,等等。
如此複雜的晶片設計,面臨的挑戰自然是空前的,
首席架構師Masooma Bhaiwala直言這是她30年來設計的最複雜的晶片,堪稱制造奇蹟。
其中,Foveros 3D封裝是一個關鍵,最終的資料傳輸速度不得不提高到最初規劃的1。5倍,以便於把Foveros連線數量降至最低,但依然比之前任何設計都高了兩個數量級。
開發團隊還必須在設計初期就鎖定Foveros在所有單元上的位置,這意味著必須一開始就搞定整個平面圖佈局,中途也不允許有明顯變更。
晶片設計和驗證也是全新流程,為此開發了大量新的工具、方法、指令碼,並獨立安排4個主要單元,開發各自的除錯軟體包,分而治之,加速開發,最終在SoC整體封裝完成幾天內就成功啟動,運行了Hello World。
再來看幾個關鍵的部分,
計算單元採用臺積電N5 5nm工藝,每個整合8個Xe核心、4MB一級快取
,Foveros封裝凸點間距36微米。
基礎單元是一個聯結器,所有複雜的I/O和高頻寬元件都在這裡匯聚
,包括PCIe 5。0匯流排、HBM2e記憶體、MDFI鏈路、EMIB橋接,幾乎是在挑戰物理極限。
它採用
Intel 7工藝、Foveros封裝,面積達640平方毫米
,集成了多達144MB二級快取。
Xe鏈路單元是臺積電N7 7nm工藝製造
,負責不同GPU之間的連線,是面向HPC、AI的縱向擴充套件的關鍵,每個單元有8條,實現了最高90G Serdes,
可以滿足“極光”(Aurora)這樣百億億次級級超級計算機的需求。
Ponte Vecchio目前處於
A0版本階段
(一般到A1就投入量產),成功運行了數百個工作負載,實測FP32吞吐效能超過45TFlops,Memory Fabric快取頻寬超過5TB/s,互連頻寬超過2TB/s。
Ponte Vecchio將有多種產品形態,最基本的單晶片做成OAM模組,整合到一個載體基板上,AMD Instinct也有這種。
四芯並聯組成一個子系統,再搭配雙路的下一代Sapphire Rapids至強處理器
,就是一個超算節點,將用於“極光”超算。
昊源一線,每天準時給您推送最熱最前沿的行業資訊;
更多硬體乾貨,可關注我們(微信公眾號:昊源諾信)期待您的到來!