作者:gaojie20
前言
1984年上映,由詹姆斯·卡梅隆導演,阿諾·施瓦辛格主演的《終結者》豆瓣評分高達8。2分,其中故事背景中的天網是人類於20世紀後期創造的以計算機為基礎的人工智慧防禦系統。之後自我意識覺醒,視全人類為威脅。電影劇情中,公元2029年,經過核毀滅的地球已由電腦“天網”統治,人類幾乎被消滅殆盡。一個叫約翰·康納的軍事領袖召集倖存者一起對抗天網,組建了反抗軍組織。
其續集於2003年上映的《終結者3》片中顯示,天網的算力是60TFLOP/s,也就是每秒60萬億次浮點運算。
其續集於2003年上映的《終結者3》片中顯示,天網的算力是60TFLOP/s,也就是每秒60萬次F浮點運算
而在2022年的今天,英偉達最新發布的Ada Lovelace架構新旗艦RTX 4090在3。15 GHz頻率下算力可以達到100TFLOP,所有也有網友調侃:看起來無所不能的天網,算力只相當於0。6張RTX 4090顯示卡。值得尋味的是《終結者》電影上映時間是1984年,而世界上第一塊顯示卡發明於1981年,還是8位ISA顯示卡。時間催化科技落地再擊穿曾經電影中的科幻資料,究竟是劇本預設太保守,還是科技進步太迅速呢?
NVIDIA Turing GPU 架構於 2018 年推出,由TSMC 12nm工藝製造,開創了 3D 圖形和 GPU 加速計算的未來。圖靈在 PC 遊戲、專業圖形應用程式和深度學習推理的效率和效能方面取得了重大進步。使用新的基於硬體的加速器,Turing 融合了光柵化、實時光線追蹤、人工智慧和模擬,以在 PC 遊戲中實現令人難以置信的真實感和電影品質的互動體驗。
兩年後的 2020 年,由Samsung 8nm 8N工藝製造的NVIDIA Ampere 架構整合了更強大的 RT 核心和Tensor核心,以及一種新穎的 SM 結構,與 Turing GPU 相比,該結構可提供 2 倍 FP32 時鐘對時鐘的效能。這些創新使得 Ampere 架構在傳統光柵圖形中的執行速度比 Turing 快 1。7 倍,在光線追蹤中的執行速度高達 2 倍。
2022年新的 NVIDIA Ada Lovelace GPU 架構以數學家 Ada Lovelace 命名,他被認為是世界上第一位計算機程式設計師,因為使用了 TSMC 5nm 4N工藝製造,其構架規模遠遠超過了 Turing 和 Ampere GPU。幾何複雜性的增加和照明的創新使圖形看起來比以往任何時候都更加逼真。 與之前的 NVIDIA Ampere GPU 架構相比,Ada 在光柵化遊戲中的速度高達 2 倍,在光線追蹤遊戲中的速度高達 4 倍。
Ada 圖形架構預示著第三代 NVIDIA RTX 技術,透過利用實時光線追蹤來提高遊戲視覺效果的真實性,而無需繪製純光線追蹤 3D 圖形所需的大量計算能力。這是透過將傳統的光柵圖形與光線追蹤元素(例如反射、照明和全域性照明等)混合來完成的。第 3 代 RTX 預示著新的更高 IPC “Ada” CUDA 核心、第 3 代 RT 核心、第 4 代 Tensor 核心和新的光流處理器(Optical Flow Processor),該元件在不涉及 GPU 主圖形的情況下在生成新幀中起關鍵作用渲染管道。
完整的 AD102 GPU 包括 12 個圖形處理叢集 (GPC)、72 個紋理處理叢集 (TPC)、144 個流處理器 (SM) 和一個 384 位視訊記憶體介面以及12 個 32 位視訊記憶體控制器。此外還包括 288 個 FP64 核心(每個 SM 2 個),上圖中未顯示。 FP64 TFLOP 率是 FP32 操作的 TFLOP 率的 1/64。包含少量的 FP64 核心以確保任何具有 FP64 程式碼的程式都能正確執行,其中還包括FP64 Tensor Core 程式碼。
完整的 AD102 GPU 使用了12個GPC單元構成,每個GPC的SM為12個共144個SM,所以可以計算出:
144(SM)*128(CUDA核心)=18432(CUDA核心)
144(SM)*1(RT核心)=144(RT核心)
144(SM)*4(Tensor核心)=576(Tensor核心)
144(SM)*4(TMUs紋理單元)=576(TMUs紋理單元)
12(GPC)*16(ROPs光柵單元)=192(ROPs光柵單元)
12(視訊記憶體控制器)*32bit(位寬)=384bit(視訊記憶體位寬)
和上一代第一款首發產品RTX 3090一樣,RTX 4090不是完整版核心,而是配備了這一代的第一款 Ada Lovelace GPU: AD102-300-A1。
儘管這張旗艦卡中使用的晶片並不是完整的核心,AD102依然擁有128 個流式多處理器 (SM) ,包含16384 個 CUDA 核心。
RTX 4090使用了11個GPC單元構成,9個GPC的SM為12個,2個GPC的SM為10個,共144個SM。所以可以計算出:
128(SM)*128(CUDA核心)=16384(CUDA核心)
128(SM)*1(RT核心)=128(RT核心)
128(SM)*4(Tensor核心)=512(Tensor核心)
128(SM)*4(TMUs紋理單元)=512(TMUs紋理單元)
11(GPC)*16(ROPs光柵單元)=176(ROPs光柵單元)
12(視訊記憶體控制器)*32bit(位寬)=384bit(視訊記憶體位寬)
Ada的圖形處理叢集 (GPC)包含1個光柵引擎,6 個 TPC、12 個 SM 和 16 個 ROP。
GPC 是所有 AD10x Ada 系列 GPU 中占主導地位的高階硬體模組,所有關鍵圖形處理單元都位於 GPC 中。每個 GPC 包括一個專用的光柵引擎、兩個光柵操作 (ROP) 分割槽,每個分割槽包含八個單獨的 ROP 單元和六個 TPC。每個 TPC 包括一個 PolyMorph 引擎和兩個 SM。
AD10x GPU 中的每個 SM 包含 128 個 CUDA 核心、1個 Ada 第三代 RT 核心、4個 Ada 第四代Tensor 核心、四個紋理單元、一個 256 KB 暫存器和 128 KB 的 L1/共享快取。
Ampere 架構的第2代RT Core圖中,BVH 遍歷由 Box Intersection Engine (左側)加速,光線-三角形相交測試由 Box Intersection Engine 加速 三角形相交引擎 (右側)。透過兩者為光線追蹤功能提供專用資源,從而解放SM單元,使其騰出時間來執行其他畫素、頂點和計算著色任務。在使用綜合基準測試以及真實遊戲和應用程式進行測試時,Turing 和 Ampere GPU 中的 RT Core 已被證明是迄今為止處理 RT 工作負載的效能最高的引擎。
Ada 架構的第3代RT Core,在繼承了第2代的兩個功能單元之外,新增了Opacity Micromap Engine (左下)和 Displaced Micro-Mesh Engine (右下)這兩個專用單元。
在 Ada 的 RT Core 之前,開發人員可以透過將某些內容標記為不透明來將它們合併到光線追蹤場景中。當葉子被光線擊中時,將呼叫著色器來確定如何處理相交,即使光線只是簡單地表徵為命中或未命中。這會產生很大的計算資源開銷。具體來說,當光線扭曲投射到非透明物件時,單個光線查詢可能需要多次著色器呼叫才能解析,而其他光線會立即終止。結果是資源開銷大以及效率低下。
為了有效處理此類內容,NVIDIA 工程師在 Ada 的 RT Core 中添加了 Opacity Micromap Engine。不透明微圖是微三角形的虛擬網格,每個微三角形都具有不透明狀態,RT Core 使用該狀態直接解析與非透明三角形的光線交叉點。具體而言,交叉點的重心座標用於處理相應的微三角形的不透明度狀態。不透明狀態可以是不透明的、透明的或未知的。如果不透明,則記錄並返回命中。如果透明,則忽略交叉點並繼續搜尋交叉點。如果未知,則將控制權返回給 SM,呼叫著色器(“anyhit”)以程式設計方式解決交集。
新的Opacity Micromap Engine處理不透明度蒙版時,將其劃分為規則的三角形網格,用於報告光線/三角形交點的重心座標。這些網格的大小可以是1到1600萬個微三角形,每個微三角形有1-2bit。
考慮使用兩個三角形和一個 alpha 紋理描述的詳細楓葉(參見子圖 (a))。 不透明蒙版應用於由 2 個三角形組成的楓葉。Opacity Micromap Engine評估葉子並確定哪些部分是不透明的、透明的或未知的,對應葉子的不透明區域,最後紅色和藍色對應混合不透明區域(未知)。在上面的示例中,Opacity Micromap Engine將微型三角形的 30 個標記為透明,41 個標記為不透明,57 個標記為未知。這意味著超過一半的葉子被完全表徵,並且超過一半的與這些三角形相交的光線要麼錯過了葉子,要麼明確地與葉子的內部相交。結果是,Ada RT Core 無需呼叫任何著色器程式碼即可完全表徵這些光線,同時保留原始 Alpha 紋理的完整解析度和保真度。不過當處於未知狀態時,GPU會將控制權返回給SM著色器進行解析。
與 Ampere 相比,Ada 的 Opacity Micromap Engine 與不透明蒙版減少了SM著色器工作負載,通常投射在 alpha通道中的測試幾何體上的陰影光線會看到最大的收益。 Ada 的不透明蒙版支援可以顯著增加場景中詳細幾何圖形的數量和保真度,從而提高真實感。藉助這項新功能,它將 alpha 遍歷速度提高了 2 倍。開發人員可以非常快速地將不透明度值分配給不規則形狀的物體(如蕨類植物和柵欄)或半透明的物品(如火焰或煙霧),從而允許 Ada RT Core 直接對對 alpha 測試紋理進行光線追蹤,而不是依賴 GPU 的 SM著色器單元。大幅提升對 alpha 測試紋理進行光線追蹤的速度。
整合到 Ada RT Core 中的第2個新硬體單元是 Displaced Micro-Mesh Engine,旨在減少處理具有高水平幾何細節的複雜物件時傳統上所需的 BVH 構建時間和儲存要求。有了這個新功能,NVIDIA開發了一種新的位移微網格原語來進行光線追蹤。 當需要額外的幾何細節時,Displaced Micro-Mesh Engine可以根據需要動態生成額外的微三角形。與傳統渲染這些複雜物件相比,Displaced Micro-Mesh Engine將 BVH 構建時間縮短了 10 倍,同時將 BVH 儲存需求降低了 20 倍。
與之前的Ampere一樣,Ada SM 分為四個分割槽,每個分割槽包含一個 64 KB 暫存器、一個 L0 指令快取、一個 warp 排程程式、一個排程單元,16 個專門用於處理 FP32 操作的 CUDA 核心(每個時鐘最多 16 個 FP32 操作),16 個可以處理 FP32 或 INT32 操作的 CUDA 核心(每個時鐘 16 個 FP32 操作或每個時鐘 16 個 INT32 操作),一個 Ada 第4代Tensor 核心、四個載入/儲存單元和一個執行先驗和圖形插值指令的特殊功能單元 (SFU)。
Ada SM 包含 128 KB 的 1 級快取。該快取採用統一架構,可根據工作負載配置為 L1 資料快取或共享記憶體。完整的AD102 GPU 包含 18432 KB 的 L1 快取,而Ampere構架中完整的GA102 僅有 10752 KB。
與 Ampere 相比,Ada 的 2 級快取進行了徹底改造。 AD102 配備了 98304 KB 的二級快取,比 GA102 中的 6144 KB 提高了 16 倍。這會讓所有應用程式都受益,而諸如光線追蹤之類的複雜操作最為受益。
Ada GPU升級的第4代Tensor 核心為現有 FP16、BF16、TF32 和 INT8 格式提供雙倍的吞吐量,其第4代Tensor 核心引入了對新 FP8 的支援。與 FP16 相比,FP8 的資料儲存需求減半,吞吐量翻倍。藉助新的 FP8 格式,GeForce RTX 4090 可為 AI 推理工作負載提供 1。3 PetaFLOPS 的效能。
NVIDIA DLSS 3 是 AI 驅動圖形領域的革命性突破,可大幅提升效能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭載的全新第四代 Tensor Core 和光流加速器提供支援,可利用 AI 創造更多高質量幀。
基於 Ada 架構的全新顯示卡配備了支援 AV1 編碼的全新第八代 NVIDIA 編碼器 (NVENC),可為主播、廣播愛好者和影片通話使用者帶來更多新的嘗試和體驗。該技術的效率比 H。264 高 40%,這有助於主播在保持直播推流位元率不變的情況下,將畫面解析度從 1080p 提高到 1440p,且畫質依然穩定。
開箱
PNY是一家美商公司,中文名:必恩威,成立於 1985 年,是致力於消費和商業級電子製造的全球技術領導者。PNY 擁有 30 多年為全球消費者、B2B 和 OEM 提供服務的經驗。產品在北美、拉丁美洲、歐洲和亞洲的 50 多個國家和地區設有 20 家公司,在全球主要零售店、電子零售店、批發商和分銷商處銷售。產品組合包括種類繁多的 USB 快閃記憶體驅動器、快閃記憶體卡、PC 記憶體升級、固態驅動器、NVIDIA 顯示卡和 HP 快閃記憶體產品。憑藉面向移動、數字成像、計算和遊戲解決方案的產品。
其實我對PNY的瞭解,還是因為在北美的bestbuy海淘Quadro專業顯示卡,PNY在北美是Quadro和Tesla的獨家代理商,這個定位非常類似中國的麗臺,2020年開始銷售的Geforce RTX 3000系列消費級顯示卡基本和國內麗臺銷售的外形是非常類似的,因為都是Palit代工出品,2021年底開始獨立研發生產顯示卡,那麼RTX 4000就是PNY獨立研發生產顯示卡的開山之作。
而XLR8 Gaming系列就是PNY所規劃的遊戲系列產品,當然PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB TF就是PNY目前出品的消費級旗艦顯示卡。
包裝正面
包裝背面
包裝側面
同比其他品牌的RTX3090包裝盒,PNY的包裝體積要小不少
開箱
原封本體
原封標籤
這是靜電袋的標籤,和盒子上的標籤以及顯示卡上的標籤,配合成三碼合一。其中D43724是PNY獨有的工廠碼。
附件全家福
1組 16-Pin 轉 四組 8-Pin的供電排線,官方稱之為PCIe5 12VHPWR Adapter。
這種帶有NVIDIA標的4 x 8P轉12VHPWR的線其實我不建議使用,因為這種線材全部是由NVIDIA配送的套料,每一家都是一樣的,因為前期有報道NVIDIA這批轉接線有嚴重的焊接方式的質量問題,容易導致顯示卡與轉接線的12VHPWR位燒熔,所以這裡我極力建議大家不要使用這條線,具體分析我會放在文章結尾部分。
附贈的一組顯示卡支撐架,官方命名為:VGA Support Kits,來自聯力代工製造。
安裝方式如上圖
顯示卡正面使用了三個100mm雙滾珠環型風扇
與傳統90mm風扇相比增加了40%以上的風量,風壓提高55%。
顯示卡背面使用了衝壓成型鋁製金屬背板
顯示卡背板的一塊做了鏤空設計,方便風扇將熱風吹至機箱內部。
顯示卡頂部設計了一組XLR8的ARGB燈效
由於這次的RTX 4090各家都採用了短PCB設計,所以16PIN供電設計在短PCB的一側上方,覆蓋上全長度的散熱器,就會顯得外接供電貌似設計在顯示卡的中間部分。
顯示卡底部
顯示卡的厚度是71。1mm,標準的3。5槽厚度。介面部分為3x DisplayPort 1。4, 1x HDMI 2。1
顯示卡前部可以看出使用了4熱管穿Fin。
這張顯示卡的體積控制在331。8 x 136。8 x 71。1mm,長度比公版的創始者310mm略長,但是短於其他AIC的同型號產品。
顯示卡體積的相容性對比
拆解
我直接對這張顯示卡進行了拆解
衝壓全鋁背板
散熱器本體
散熱使用了8根熱管
接觸底座使用了Vapor-Chamber真空腔均熱板設計。
PCB正面
PCB背面
PNY的這張卡的PCB是公版PG139-SKU330
這張顯示卡全部的MOSFET使用都是OnSemi NCP302150 DrMOS,分別用於GPU和視訊記憶體供電;額定電流均為50A 。
GPU核心的PMW晶片是uPI uP9512U 。
該控制器管理14 相GPU核心供電。
視訊記憶體供電PMW晶片是UPI uP9512R
該控制器管理3相視訊記憶體供電。
GDDR6X 記憶體晶片由美光製造,型號為 D8BZC,解碼為 MT61K512M32KPA-21:U。它們被指定以 1313 MHz(21 Gbps 有效)執行。
GPU核心是AD102-300-A1
HOLTEK HT32F52352晶片控制燈效以及風扇轉速。
GSTEK GS9216是一顆12A降壓晶片。
UPI US5650Q是一顆四通道電壓電流監控晶片,監測PCB上四顆SHUNT RESISTOR,2顆R002和1顆R005在12VHWPR附近, 1顆R005在金手指附近。
這個供電的思路看下來,感覺PNY的設計比較關注預設效能穩定性,沒有大量的堆料供應超頻需求。設計方案和Palit類似。
既然都是PG139-SU330公版參考設計,為什麼各家的PCB有明顯的不同,包括電源的相數以及供電的方案。其實來自igor‘sLAB的主編Igor Wallossek早就發表過他的意見,在Ada設計之初,NVIDIA考慮的仍然是使用SAMSUNG 8N製程,所以給與板卡廠商的散熱以及電路設計參考指南都是以600W散熱規模以及供電規模呈現的,因為整個產品的規劃確實需要幾個月時間,但是AMD的NAVI 31確定下來使用TSMC 5-6nm混合工藝製造後,NVIDIA估計是不淡定了,立即改變Ada的製程,直接轉投TSMC 5nm改良版4N,確實TSMC 4N面對AMD確定的TSMC 5-6nm混合製程是存在優勢的,同時由於一些市場戰略問題,NVIDIA並沒有向板卡廠商透露工藝變更事宜,直到AD102出來,NVIDIA通知板卡廠商RTX 4090的TGP和散熱設計為450W才得到確認。
這時候板卡廠商更換方案已經來不及了,於是就用600W的電路設計+散熱方案直接推出了RTX 4090的產品,可以理解成PG139-SU330公版參考設計的600W加強版。
其實對於NVIDIA自己的FE版本也是早早設計好了600W的電路PCB,就是PG139-SU330公版的600W變種加強版,但是上市時候使用了450W的散熱模組,原先計劃的三風扇FE散熱方案可以移交到RTX 4090Ti上去了。
在投片TSMC 4N之後NVIDIA在市場方面向板卡廠商出售方案的時候就完全轉向了450W的PG139-SU330公版設計,包括供電套料都一併提供,並極力要求廠商這樣去做,原因就是在面對未來的NAVI-31的時候,NVIDIA希望表現的是一個比對方優秀的能耗比,而不是一個多燒了33%TGP功耗效能多出5%的產品,諸如Palit抑或PNY就是屬於後期被NVIDIA規劃為450W產品線的主推廠商。
所以這一代產品,PG139-SU330公版參考設計是600W版本還是450W版本,完全取決於NVIDIA介入生產設計的時間線,在轉投TSMC 4N之前,都是600W方案,在投了TSMC 4N之後都是450W方案。
那麼是不是600W版本的PCB以及散熱設計就會強很多呢?這取決於板卡廠商的慣性思維,因為SAMSUNG 8N製程Ampere的GPU核心提供給廠商的時候是存在分級的,分為30%的BIN0,60%的BIN1,10%的BIN2。這是由三星的良率問題決定,所以產生了BIN2這樣的Sorting GPU核心,優秀的核心會提供給核心AIC裝備,比如御三家這些,所以御三家的旗艦版會比下游廠家的核心在同樣電壓下BOOST到更高更誇張的頻率,這讓超公版PCB和散熱設計變得非常有價值。但是TSMC 4N卻不提供所謂的Sorting GPU核心,這次只有BIN1,沒有BIN0和BIN2,每一家拿到的核心體制都基本一致,沒有特別優秀的也沒有特別差的,這就讓想做超公版的廠家特別頭疼,因此,大家看評測所瞭解的600W滿載的效能也並沒有特別多的效能提升,能耗比完全沒有優勢。
測試平臺
電源適配
為了儘可能穩定有效的完成測試任務,電源這次使用了Seasonic Prime TX-1600
Seasonic Prime TX-1600包裝
80PLUS鈦金認證,電源原生支援兩個PCIe5 12VHPWR供電介面。
開箱
附件全家福
線材包1
線材包2
PCIe5 12VHPWR供電線
PCIe5 12VHPWR供電介面部分
海韻的PCIe5 12VHPWR供電線直接定義為600W輸出。
電源本體背面
電源本體正面
電源本體側面
電源模組介面
45視角
測試平臺
【CPU】: AMD Ryzen 7 5800X
【主機板】: ASRock X570S PG Riptide
【記憶體】: Lexar THOR DDR4-3600 16GB X2(White)
【硬碟】: LEXAR NM800 1TB M。2 PCIe Gen 4X4 SSD
【顯示卡】: PNY RTX 4090 OC XLR8 Gaming Verto
【散熱】: Thermalright Forzen Magic 240 ARGB
【機箱】: SilverStone RM42-502
【電源】: Seasonic TX-1600
【系統】: Windows 11 x64 WorkStation 21H2
【系統】: Ubuntu 18。04。6 x64
視角1
點亮的光效
基本情況
GPUZ預設引數
閒時,使用HWINFO對GPU功耗、GPU熱點溫度、GPU溫度以及視訊記憶體結溫進行了監控,可以發現:
功耗=14。834W,
GPU熱點溫度=45。8C
GPU溫度=36。9C
視訊記憶體結溫=40C
我們進行3DMARK Speed Way的壓力測試,本測試一共20輪,我們在第17輪開始統計,榨出當前最高的TGP和溫度並使用HWinfo監控。
執行3DMARK Speed Way壓力測試是因為要一直處於GPU 100%滿載狀態:
功耗=443。946W,
GPU熱點溫度=79。9C
GPU溫度=70。3C
視訊記憶體結溫=80C
這基本是目前現有手段能榨出的最大表現力。
回到HWINFO監控頁面去覆盤,瞭解一下這張卡的一些特性:
關於GPU功耗,最低9。133W,最高445。763W,基本說明這張卡的功耗區間,看起來被鎖450W TGP。
GPU頻率在待機時候穩定在210MHz,滿載時候達到2820MHz。
視訊記憶體頻率在待機時候穩定在101。3MHz,滿載時候達到2625。5MHz。
GPU過熱限制=84C,說明整個顯示卡的散熱設計是為了把GPU溫度壓制在84C以內。
GPU風扇1是三顆風扇中的左右兩顆並聯,待機基本不轉,測試時候轉速最大達到1713RPM,但這只是風扇全速轉速的49%。
GPU風扇2是三顆風扇中的中間一顆,在待機時候基本不轉,測試時候轉速最大達到1721RPM,但這只是風扇全速轉速的49%。
想讓風扇全速,使用PNY的VelocityX軟體就可以做到。
將風扇這裡的自動關閉,轉速拉到100%即可達到最大轉速3086RPM。
下面看一下超頻效果,
超頻之前跑了一個3DMARK TIME SPY EXTREME測試,GPU分數19472
隨後我直接將GPU核心加了200MHz,
進行3DMARK TIME SPY EXTREME測試,GPU分數19912
HWINFO監控資料的GPU功耗依然牢牢被鎖在450W以內。
比較一下兩個測試,差異主要是CPU核心頻率boost從2790MHz越遷到2985MHz,實際功耗沒有增加,溫度也沒有增加。所以也不用動輒對boost核心頻率達到3000MHz的600W超級公版垂涎三尺,其實哪怕450W TGP的RTX 4090往上隨便拉個200-250核心頻率就隨意可以達到3000MHz的boost核心頻率。
這說明這次的AD102-300-A1核心在不增加功耗的情況下是留有一定餘量的效能可以壓榨的,但是空間不大,200-250MHz,一旦超過這個範圍,就需要BIOS破除Maximum Power Limit 450W的限制。
關於RGB特效,VelocityX提供了多種選擇,下面展示幾張我拍攝的燈光效果。
基本情況部分測試到此結束。
對比測試
從左往右,依次是PNY RTX 4090 Verto、影馳RTX 3090 Ti星耀以及七彩虹RTX 3090火神
三款產品同比
厚度上PNY RTX 4090略厚,長度和影馳RTX 3090 Ti星耀基本一致。
DLSS3 測試
NVIDIA GeForce RTX 40系列顯示卡的一大變化就是新增了對DLSS 3技術的支援,DLSS 3在前代DLSS2的基礎上,透過(OFA)光流加速推斷下一幀生成的目標畫面,使傳統CUDA算力得到極大的節省,讓GPU在應對高解析度實時渲染遊戲時可以更加遊刃有餘,與不使用DLSS相比,理論上游戲效能的提升可高達4倍。
DLSS 3由於Frame Generation的加入,它的理論幀數效能能達到原先DLSS 2的雙倍,這使得GeForce RTX 40系顯示卡能夠以更小的壓力用4K解析度高畫質執行所有支援DLSS 3的遊戲,同時距離流暢體驗8K遊戲也更進一步。
目前有超過35款遊戲和應用宣佈即將支援DLSS3。
DLSS3 測試-Cyberpunk 2077
DLSS 3的相關測試使用《Cyberpunk 2077》完成,雖然選擇遊戲自帶的BENCHMARK進行測試,但由於DLSS 3應用了新技術,當下遊戲自帶的幀數記錄功能並不能精準地記錄下開啟DLSS 3之後的遊戲幀數。因此在DLSS 3遊戲中,雖然使用遊戲自帶的BENCHMARK進行測試,但實際幀數以NVIDIA的FrameView工具為準。
開啟光追測試,我們可以發現,開啟DLSS 2之後的遊戲效能幀數已經相當可觀,然而當開啟DLSS 3之後,遊戲效能在DLSS 2的基礎上又提升了一大截,與關閉DLSS相比,在4K解析度下開啟DLSS 3質量可以帶來170%的效能提升,2K解析度下可以帶來145%的效能提升。
DLSS對比測試
DLSS對比測試-FAR CRY 6
DLSS對比測試-Shadow of the Tomb Raider
生產力測試
生產力測試環節使用了Puget Systems的三個測試指令碼進行測試:
生產力測試-Adobe After Effects 22。4
本測試以Adobe After Effects 22。4為測試載體
以PugetBench for After Effects 0。95。2為工具基準進行測試
本測試涉及到了許多不同的專案,其中包括一個專用的“GPU 壓力”測試,該測試旨在往 GPU 上施加儘可能多的負載,同時仍保持在某人在現實世界中可能實際執行的範圍內。 在 After Effects 等應用程式中檢視 GPU 效能通常是檢查 GPU 承受重負載的極端情況的情況,因此透過每個 GPU 的 After Effects 基準測試中看到的整體效能開始,GPU 分數是根據“GPU Stress”組合的效能計算得出的,該組合旨在將盡可能多的負載置於 GPU 上,同時最大限度地減少 CPU 作為瓶頸,可以很好地顯示 After Effects 中不同 GPU 之間的最大效能增量。
GPU分數的基準是以NVIDIA GeForce RTX 3080 10GB為100分參考基準。
NVIDIA GeForce RTX 3080 10GB
GPU分數:100
測試資料彙總
生產力測試-Adobe Premiere Pro 22。6。1
本測試以Adobe Premiere Pro 222。6。1為測試載體
以PugetBench for Premiere Pro 0。95。3為工具基準進行測試。
這個基準測試透過4K和8K解析度以及29。97和59。94 FPS的各種編解碼器來研究實時回放和匯出效能。對於GPU測試使用專用的“過載GPU效果”單獨向GPU施加儘量多的壓力,使其超出普通Premiere Pro使用者的工作範圍來進行測試。
測試的剪輯素材 (59。94 FPS)素材解析度以及編碼器包含:4K H。264 150mbps 8-bit (59。94FPS)、4K ProRes 422、4K RED、8K RED、8K H。265 100Mbps。
對於每種型別的測試素材,進行四種測試:
標準 - 兩個 59。94FPS 片段串聯,應用 Lumetri Color 效果
2x Forward - 四個 59。94FPS 剪輯,在 119。88FPS 序列中將 Lumetri 顏色設定為 200% 速度,以模擬以 2 倍速度播放時的效能。
4x Forward - 8 個 59。94FPS 剪輯,在 239。76FPS 序列中將 Lumetri 顏色設定為 400% 的速度,以模擬以 4 倍速度播放時的效能。
MultiCam - 在多機位序列中跨四六個軌道的多個剪輯。在“多相機”顯示模式下測試播放。
這些測試都用於全回放解析度的實時回放效能測試。
標準測試還使用“Youtube 2160p 4K 超高畫質”預設(H。264、4K、40mbps)以及匯出到 4K ProRes 422HQ 8-bpc 來測試其匯出效能。
關於GPU有一個“Heavy GPU Effects”測試,使用:
串聯的 Twp ProRes 422 剪輯,每個剪輯之間有交叉溶解
高階效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur 和 VR Digital Glitch。
極致效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur、VR Digital Glitch 和 VR De-Noise。
透過匯出到 ProRes 422HQ 來衡量效能。
GPU 分數基準是以NVIDIA GeForce RTX 3080 10GB為100分參考基準:
NVIDIA GeForce RTX 3080 10GB
GPU分數:100
測試資料彙總
生產力測試-DaVinci Resolve Studio 18。0。2
本測試以BlackMagic DaVinci Resolve Studio 18。0。2為測試載體,以PugetBench for DaVinci Resolve 0。92。3為工具基準進行測試。
本基準測試主要使用各種編解碼器以 4K 和 8K(僅限擴充套件預設)解析度、OpenFX 以及 Fusion 中的效能進行渲染。
測試的剪輯素材 (59。94 FPS)素材溯源自以下兩家自媒體提供的樣片:包含以下解析度和編解碼器:
4K H。264 150mbps 8-bit、4K ProRes 422、4K RED、8K RED以及8K H。265 100mbps
GPU 效果部分側重於 OpenFX 和降噪,包含以下效果:
Temporal NR x3 - 2 Frames Better
Temporal NR - 2 Frames Better
Film Grain
Spatial NR - Better
Lens Blur x5
Lens Flare
Optical Flow - 50% Enhanced Better
Face Refinement
測試資料彙總
最後需要說明的是,本次測試的剪輯素材來自以下兩家自媒體:
4K和8K RED剪輯影片來自老萊的工作室,這些剪輯也已轉碼以建立H。265和ProRes 422剪輯。Linus Media Group是老萊的公司,在YouTube上提供了流行的 LinusTips和 TechLinked頻道。
Neil Purcell是倫敦著名的照明攝影師,在廣播電視領域擁有超過25年的經驗。從事各種各樣的作品;從戲劇到木偶,現場新聞和事實,兒童節目,燈光娛樂,真人秀,外部廣播,重大體育賽事,音樂演唱會,流行影片,企業電影和商業廣告。圖中Neil Purcell(燈光攝影師/攝影操作員)正在以他的松下 GH5 拍攝 4K H。264 素材。本次測試使用的4K H。264素材來源於他的剪輯作品。
深度學習
RTX 4090 具有576個第4代Tensor核心 ,RTX 3090 Ti 具有336個第3代Tensor核心,RTX 3090 具有328個第3代Tensor核心,理論上RTX 4090的Tensor核心不僅有數量上的優勢而且有迭代的優勢。這對深度學習來說是個非常大的利好。不過RTX 4090實在太新了可能需要點時間才能讓深度學習的周邊支援跟上,正好CUDA Toolkit 11。8趕著釋出了,所以直接使用了NVIDIA的NGC 容器系統進行測試。
測試系統
Ubuntu 22。04 Linux
NVIDIA Enroot 3。4
來自NVIDIA NGC 的容器化應用程式
TensorFlow 1。15。5 ML/AI 框架標籤:nvcr。io/nvidia/tensorflow:22。09-tf1-py3
PyTorch 1。13。0a0 ML/AI 框架標籤:nvcr。io/nvidia/pytorch:22。09-py3
深度學習-TensorFlow ResNet50
TensorFlow 1。15。5版本是 NVIDIA 維護的 ,能提供更好的效能。基準是訓練 100 Step的 ResNet 50 卷積神經網路 (CNN)。結果是以每秒處理的圖象數來決定。精度可選擇FP32 和 FP16 。每秒處理的圖象數越多說明效能越好。
命令列:
CUDA_VISIBLE_DEVICES=0 python resnet。py ——layers=50 ——batch_size=128 ——precision=fp16
CUDA_VISIBLE_DEVICES=0 python resnet。py ——layers=50 ——batch_size=128 ——precision=fp32
測試資料彙總
深度學習-PyTorch Transformer
基準測試使用 PyTorch 1。13 在帶有 CUDA 的 Wikitext-2 的神經網路上對Transformer 模型進行 6 epoch 的訓練,完成時間越短,說明效能越好。
命令列:
time CUDA_VISIBLE_DEVICES=0 python main。py ——cuda ——epochs 6 ——model Transformer ——lr 5 ——batch_size 640
測試資料彙總
值得注意的是PyTorch和TensorFlow的迭代支援很快,一些最佳化一定會持續跟進Ada構架進行最佳化的,所以預留了未來可期許的深度學習效能提升空間。
硬體相容性
其實我對測試平臺不太追新,最主要的問題就是怕不相容,結果還是遇到了不相容的情況,最後得到了解決:
測試平臺我選用的是ASRock X570S PG Riptide主機板以及AMD Ryzen 7 5800X,沒有選用INTEL 12和13代平臺以及AMD Ryzen 7000系列平臺最主要的原因是因為有部分的測試在Ubuntu 18。04。6 LTS下進去,對於Linux平臺而言,支援如上新平臺發揮效能需要更新核心到5。17-5。22以上,存在一些未知且不可預測的可能性,求穩所以使用了成熟的平臺。
ASRock X570S PG Riptide包裝
ASRock X570S PG Riptide附件一覽
ASRock X570S PG Riptide本體
安裝AMD Ryzen 7 5800X,散熱器選用的是Thermalright Forzen Magic 240 ARGB。
Thermalright Forzen Magic 240 ARGB包裝
Thermalright Forzen Magic 240 ARGB本體1
Thermalright Forzen Magic 240 ARGB本體2
SSD選擇的比較穩健的LEXAR NM800 1TB M。2 PCIe Gen 4X4 ,為了提高相容性選用了主流的IG5236主控+美光B47R NAND。
SSD本體正面
SSD本體背面
安裝裝置在M。2-1 CPU PCIe Lane槽位。
CrystalDiskMark 8。0。24的持續讀寫使用QD32T1的預設設定,隨機讀寫使用QD32T16的條件,可以非常接近官標所標識的UP TO的最大值:
Sequential Read [持續讀取](Q=32,T=1) : 7459 MB/s 超越官標
Sequential Write [持續寫入](Q=32,T=1) : 5738 MB/s 接近官標
Random Read 4KiB [4K隨機讀取](Q=32,T=16) : 399K IOPS 接近官標
Random Write 4KiB[4K隨機寫入] (Q=32,T=16) : 1013K IOPS 遠超官標
評估了下,基本可以認為達到了官標的效能。
記憶體選擇的是Lexar THOR DDR4-3600 16GB X2(White)
DRAM本體正面
DRAM擺拍2
上機
安裝記憶體在DIMM 2和DIMM 4。
上機用颱風看了下,美光F-Die,顆粒編號D8CJV,美光裡的內部編號為MT40A2G8SA-062E:F,原生DDR4-3200的顆粒,SPD裡有DDR4-3600 18-22-22-42 1。35V的XMP引數以及DDR4-3200 22-22-22-52 1。2V的JEDEC引數。
機箱選用的是一款工作站機箱SilverStone RM42-502
這是一款可以透過導軌直接上機櫃的RACK機箱
支援240-280水冷。開啟前門可以看到相容水冷的風扇進風位
SilverStone RM42-502的特點是可以透過附件裡面的轉換件變成塔式工作站機箱
SilverStone RM42-502的塔式形態——開門
SilverStone RM42-502的塔式形態——關門,前門鑰匙是工作站機箱的標配。
組裝好硬體
問題一
第一件事情發現點不亮……如圖所示顯示器無顯示,但是機器執行則一切正常。
ASRock X570S PG Riptide這種上市一年多的成熟產品竟然必須需要更新2022年10月22日最新2。20版本BIOS才可以支援RTX 4090,所以當發現點不亮RTX 4090的時候不用慌,先去用別的顯示卡點亮系統升級一個最新的BIOS。
問題二
第二個問題,要清楚SilverStone RM42-502是一個支援ETAX雙路主機板的工作站伺服器機箱,不僅寬大且做工精良。
規格是430mm (W) x 176mm (H) x 468mm (D),寬度是430mm。
就這個規格的機箱,在安裝了前置240水冷之後,塞進去331mm長度的PNY GeForce RTX 4090 24GB OC XLR8也已經比較緊湊了,機箱在不安裝前置水冷情況下允許安裝的顯示卡最大長度為426mm,一般普通水冷排厚度為27mm,12025規格水冷風扇厚度為25mm,安裝完水冷僅剩下374mm的長度空間,依然足夠裝下目前在售的任意品牌型號的RTX 4090!如果你正在為找一款適合RTX 4090的做工精良的工作站機箱而煩惱,如果你能夠接受無ARGB的機箱內環境的話,SilverStone RM42-502絕對是您正確的選擇!
但是市面上大多數的ATX機箱顯示卡限制長度都在350mm以內,這意味著,如果你購買RTX 4090顯示卡,顯示卡的長度決定了你是否需要更換一個更大的機箱。所以這時候長度更短的RTX 4090的機箱相容適配性當然是更強的。
問題三
第三個問題,如果使用了Seasonic TX-1600原配的12VHPWR線材進行安裝,如果發生過度彎曲,還是有可能發生以下情況:
因為過度彎曲發生的線材接頭脫落情況,
PCI-SIG組織早就通報了因為12VHPWR的線材因為太硬太粗的原因在過度彎曲的時候造成接頭鬆動甚至脫落,和顯示卡12VHPWR接頭部分發生電阻值過高,發熱嚴重最終造成12VHPWR燒燬的問題。
現在問題來了,機箱的能蓋上側板能容納的最大顯示卡高度為156mm,而顯示卡本身的高度為136。8mm,如果要蓋上側板,就必須在19mm的空間內進行12VHPWR線材彎折,這其實還是有風險。對於海韻電源而言,其實還有終極解決方案來解決這個問題。
海韻為解決彎曲問題出品了一款新的12VHPWR模組線,符合PCIe 5。0供電標準,相容ATX 3。0,使用16AWG高規格線徑,耐高電流合金銅端子,可支援高達600W功率輸出。電源直連顯示卡供電,可降低轉接帶來的故障風險,為玩家帶來更安全穩定的供電方案。另外,該模組線採用了新的模組線材,壓紋工藝如編織質感,比一般的模組線更柔軟,更有利於玩家走線。
海韻這款12VHPWR模組線適配於其PRIME和FOCUS系列850W及以上型號,可選黑色或白色,但與其他品牌並不適配。如果玩家使用的是國行在保的海韻電源,每個電源SN可免費申請一次,得到這款12VHPWR模組線。
1000W及以上的海韻電源需提供RTX 40系列顯示卡的購買憑證,850W及以上的海韻電源需提供RTX 3090 Ti顯示卡的購買憑證,另外玩家需要提供一張電源與顯示卡的合照(電源SN清晰可見),預設發黑色,白色需備註。玩家可將相關資料傳送到官方郵箱cn。support@seasonic。com免費申請,郵費自理,以順豐到付寄出。
問題四
第四個問題,第一批次NVIDIA配給顯示卡生產商的1組 16-Pin轉4組 8-Pin的供電排線,官方稱之為PCIe5 12VHPWR Adapter,存在嚴重質量問題。igor’sLAB 發表了一項關於 Nvidia 12VHPWR 介面卡的研究,不建議使用此介面卡!
reddit有個帖子專門持續彙報發生的轉接線燒燬顯示卡供電介面事件,且持續更新。到2022年10月30日為止因NVIDIA配送的16-Pin轉4組 8-Pin的12VHPWR線材燒燬顯示卡介面事件為12例,均為TGP大於550W的RTX 4090。目前無法確定NVIDIA要求近期發行的RTX 4090新版TGP功耗鎖定為450W是否與此有關。
NVIDIA配送的16-Pin轉4組 8-Pin的12VHPWR線材總共有 4 根 14AWG 粗線分佈在總共 6 個觸點上,兩條外部引線分別焊接到一個引腳上,中間的兩條引線分別焊接到兩個引腳上。
焊料底座是僅 0。2mm的薄銅底座,每根進線寬度為 2 mm,因此中間連線的每對寬度為4mm。
將一根甚至兩根14AWG 電線焊接到它上面是活動的,彎曲情況下非常容易造成脫落。
目前上市的大多數的RTX 4090都是在600W TGP下執行,在這電流強度下,因為彎曲導致的不穩定且活動的焊接觸點引腳電阻值上升,迅速燒燬顯示卡以及轉接線的12VHPWR介面部分。
因為早期的RTX 3090Ti配送的1組12-Pin轉3組 8-Pin的供電排線使用了相同的設計,可能是因為450W TGP功耗輸入電流較低並未報告燒燬RTX 3090Ti的情況,但是這次有使用者害怕使用RTX 4090配送的16-Pin轉4組 8-Pin的12VHPWR線材,轉而使用RTX 3090Ti配送的12-Pin轉3組 8-Pin的12VHPWR線材,一樣發生了燒燬情況。目前的報告是兩例。順帶說一下PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB TF目前是和RTX 3090Ti一樣的450W TGP功耗設計。
總結
因為手裡沒有其他的RTX 4090顯示卡,所以同類比測試是無法進行的,本次評測主要對上代的旗艦級顯示卡做了明確的效能比對。
基於DLSS3遊戲用途的玩家是非常值得升級RTX 4090的,而對於普通DLSS遊戲使用者而言,需求沒有那麼強烈,生產力環節諸如Adobe AR PR類的軟體而言,升級理由並不充分,而對於達芬奇使用者來說就非常值得升級,深度學習方面是絕對值得升級的,但是周邊支援的完善可能需要點時間。
截至發文,RTX 4090的價格從首發12999奔著16000去了,京東缺貨,天貓缺貨,倒不是商家囤貨居奇,是因為9成的大廠訂單都直送美國了,這就造成中國目前的缺貨真空期,自然水漲船高。
至於PNY這張RTX 4090顯示卡,效能中規中矩,因為Maximum Power Limit 被鎖定在450W,所以在不能動電壓的情況下超頻所獲得性能有限在2-3%附近,其長度適中且不浮誇的散熱規模令人印象深刻,因為能保證相容適配大多數的普通機箱,同時效能也足夠壓制450W TDP,49%的自動風扇控制可以最大程度保證滿載執行時候的靜音效果,如果不破解Maximum Power Limit 其實也用不到100%的手動風扇設定。VelocityX軟體的使用理念比較簡約,簡單暴力比較適合快速上手,ARGB的光效加持也起到了畫龍點睛的效果。
那麼問題來了,這張卡的潛在客戶群體在哪裡?這張卡適合對穩定度有一定要求,且對機箱電源的相容適配要求比較高的使用者,換句話說,在不想更換更高功率電源和更大規模機箱的前提下,客戶有一個850W的電源,一個普通ATX的機箱,如果你要塞進去RTX 4090,除了NVIDIA創始者版本,PNY RTX 4090 OC XLR8 Gaming Verto就是最佳的選擇了。當然前提是你需要有一個適合RTX 4090的電源以及彎折不會燒燬的12VHPWR線材。