愛伊米

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

作者:溢圖科技

Hi,我是溢圖科技。

NVIDIA在9月20日召開發佈會釋出了最新的Ada Lovelace遊戲卡,首發產品包括RTX4090、RTX4080 16GB和RTX4080 12GB,國行MSRP分別為12999元、9499元和7199元,規模和價格一出引起了不小的爭議。主要的質疑集中在兩方面,一個是採用AD104核心和192bit視訊記憶體位寬規格的RTX4080到底配不配稱為“80”,再一個就是面對海量礦卡的衝擊這個定價略顯自信,究竟產品力能否支撐起這個定價尚且存疑。不過距離RTX4080兩兄弟的發售還有一個多月時間,目前關於它們的資訊暫時還比較少,相比4080受到的質疑,大家對4090的評價相對來說正面很多,我們今天就來看一下剛剛解禁的RTX4090。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

架構

釋出之前有一些爆料稱Ada Lovelace會使用類似Hopper計算卡的SM架構(去除FP64),即一個SM內包含兩路FP32、一路INT32和一路FP16:

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

但實際上Ada Lovelace的SM內部架構跟Ampere基本一致,仍然採用了FP32+FP32/INT32的雙路流處理器設計。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

這個設計其實很類似於CPU上面的執行埠,透過拓寬後端執行架構來獲得更高的IPC提升效能,同時避免重複放置單元造成電晶體浪費。這個視角來看Ampere/Ada Lovelace類似於一個5執行埠的CPU,只不過其中一個發射埠可以發射FP和INT兩種型別的指令。

對比之前Ampere 30系卡的架構圖可以看到無論是在架構設計還是規模方面都幾乎沒有變化。跟帕斯卡時代的思路比較相似,GP100計算卡先引入了類似後面Volta/Turing的精度分離設計,而GP102/104/106之類的仍然採用純FP32,只是在工藝方面做了換新升級,大幅度提高執行頻率。好處就是架構一脈相承的話目前30系卡使用者暫時不用考慮新驅動完全放棄老卡最佳化的問題,壞處就是想用上全新架構的話目測至少要等到50繫了,畢竟製程紅利這個東西目前越來越難蹭到,留一手給後續型號升級使用也是可以理解。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

GPU架構層面倒是變化很大,最顯著的就是中間巨大的二級快取,滿配AD102核心有96MB二級快取,跟之前RDNA2上面的Infinity Cache作用應該類似,緩解在30系這一代就已經逐步出現的視訊記憶體頻寬不夠用問題。可惜RTX4090上面用的AD102連二級快取節點也一起閹割,實際可用的二級快取只有72MB。

另外一個不太引人注目的細節就是,Ampere/Ada Lovelace架構的一級快取是跟SM走的,每SM 128KB,完整的AD102核心擁有18MB一級快取,相比GA102也有不小提升。可惜的是在RTX4090當中仍然是隻有16MB可用。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

製造工藝方面Ada Lovelace GPU採用的是TSMC 4N定製工藝,電晶體密度突破130MTr/mm^2,相比採用三星8nm工藝的AD102密度提升差不多有三倍。因此在塞入了差不多三倍數量的電晶體之後,GA102的核心面積跟AD102差不多,總感覺老黃還沒使出全力,已經好久沒在桌面端上見過像TU102那種面積超過800平方毫米的超大GPU核心了。

相比於流處理器單元的沿用,Ada Lovelace的光追單元倒是在功能和效能兩方面都獲得了巨大提升。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

一個是把渲染目標的alpha通道即透明度資訊引入光追運算,類似於戶外的樹葉這種多邊形框架+貼圖的元件,現在只計算其邊緣與入射光線的互動即可,貼圖部分的複雜反射折射計算起來基本得不到什麼肉眼可見的資訊,不如直接採用光柵化渲染裡的alpha通道方式。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

DX11當中引入曲面細分之後,描繪物體表面凹凸使用的三角形數目大幅度增加,而對於光追來說這些三角形大部分都是不必要的——人們對於光照特效的感知遠沒有那麼細,對於一個物體來說用一個大三角形把它包絡進去進行光追計算,得到的結果也一樣可以令人滿意。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

Ada Lovelace GPU可以建立這種簡單的BVH,按NV官方的PPT它可以把構建簡單BVH的速度提高十倍甚至九倍,但以上兩項新技術都需要遊戲引擎的針對開發,在目前的遊戲當中看不出什麼效果,對於目前的遊戲來說,光追單元本身的效能提升相對來說顯得更重要一些。

上面一行不起眼的獨立單元也是這次Ada Lovelace的重要升級,包括了全新的硬體光流加速器、完整支援AV1編解碼的NVENC/NVDEC。比較可惜的是PCIe介面仍然是4。0規格,想用到PCIe5。0的話,還是要等下一代了——不過應該對效能沒什麼大影響,反正這代也不支援SLI了,不用考慮拆分x8的問題,PCIe 4。0 x16的頻寬完全足夠。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

還有個一筆帶過的新特性就是亂序執行,GPU的架構越來越像CPU看齊了。不過我本來以為亂序執行能力是SM裡帶的(自己PPT上寫的嘛),還在想這到底要消耗多少額外的暫存器(x86 CPU為了亂序執行有相當多的資源消耗在ROB之類的暫存器上面)。結果仔細一看是RT Cores支援SER(著色器執行重排),而且增加的專用暫存器數量並不多,主要使用Ada Lovelace新增的快取——這不得不說也是個很討巧的設計。

新特性

新特性方面這幾天討論比較多的應該就是DLSS3。0,最大的爭議點在於除了以往插解析度的實現方式之外新增了插幀,而插幀這個事情說實話在遊戲圈有點惡名昭彰,前段時間個別“遊戲手機”上搭載的“獨顯晶片”被惡評如潮,很大程度上就來自於對遊戲這種延遲敏感型應用來說,插幀的體驗實在是不佳。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

不過就我自己玩了這幾天的體驗來看這個插幀用起來竟然還可以,當然也是有前提條件的,那就是遊戲原生渲染的幀數不能太低,畢竟即便是專用的加速單元和運動向量與光流混合處理也只部分解決了插幀的偽影問題,延遲再怎麼降低也是需要1幀未來幀的資料,那麼原生的1幀未來幀需要多久渲染就成為了影響DLSS FG延遲的最關鍵因素。所以這個技術我個人覺得適用的就是兩方面,一個是官方所說的在CPU受限的情況下透過插幀來提升GPU的利用率,再一個就是錦上添花,讓已經比較流暢的遊戲變得更流暢。雖然在實現上令人耳目一新,但它確實沒有DLSS2。x那種以不算高的代價讓遊戲從不能玩變成能玩的能力。當然了實際使用當中你也可以同時開啟,不過有一說一各種DLSS組合的的體驗和畫質表現這個不是咱們圖文的強項,可以看一下做得比較詳細的首發影片,這部分內容的確非常適合用影片來對比展示。

公版卡開箱拆解與用料點評

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

接下來有請主角出場,RTX4090 Founders Edition(以下簡稱FE或者公版)。這次的公版在國內會發售國行,小夥伴們可以等10月12日晚9點開售之後在京東購買FE版本,以及明天會解禁的各種AIC非公版。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

不得不說FE的包裝和本體外觀設計都很有個性,30系的公版沒在國內發售導致很多人只能選擇海外代購,這次對這種外觀設計比較喜歡的使用者可以試一試搶購國行了。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

拆解,第一步需拆除背板並擰下X形夾縫內的所有螺絲,不過有意思的是這個背板是透過右邊的一個卡扣固定的,不算很結實,跟前兩天藍廠的膠水黏相比感覺有點臥龍鳳雛……

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

第二步把背板中框拿下來並斷開PCB和散熱器連線的排線,一共有三根,小心別弄壞了,依然是非常脆弱。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

第三步拆除擋板上的六個梅花螺絲,這裡不得不吐槽一句英偉達在這張卡上使用了兩種刀口四種尺寸的螺絲,光來回換刀頭都有夠麻煩的。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

然後把PCB拿下來就行了,整個拆解難度相比RTX30系列的公版低一些。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

散熱器採用純銅均熱板底座,6根8mm熱管,前後雙風扇。有意思的是視訊記憶體散熱底座採用波浪凹凸設計,還真是第一次見到。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

接下來看一下PCB,PCB採用類似RTX3090Ti上的異形設計,不過排布稍有不同。供電部分空焊四相,可能是為了更高階的產品做準備。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

GPU核心為AD102-300-A1,可以看到是工程樣品。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

視訊記憶體為鎂光Micron的GDDR6X顆粒,D8BZC MT61K512M32KPA-21,3090Ti同款16Gb 21Gbps。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

供電MOS為美國芯源MP86957,每相可以提供70A的最大輸出電流。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

供電輸入介面為+12VHPWR,擁有2路輸入濾波。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

背面除了電容電阻之類的器件之外最顯眼的就是MP2891 PWM Controller,跟3090Ti上面也是相同方案。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

另有一顆面積較小的uS5650Q供電監測晶片。

電源

這次RTX40系列全部採用12+4Pin的+12VHPWR電源端子,包括RTX4080系列也是強制要求使用,後續的4070、60系列也不排除全面推廣。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

上為傳統的6+2Pin PCIe供電端子定義,下面是+12VHPWR的端子定義,對於廣大非ATX3。0電源使用者來說就只有轉接一條路了,轉接這個事情也有幾種不同的方案。

第一個就是過渡期的準ATX3。0全模組電源,廠商會提供一根雙8Pin電源端端子到+12VHPWR顯示卡端端子的模組線,8Pin端子裡有三路有效的+12VDC輸出,12VHPWR裡有六組,兩個介面正好一一對應。在端子質量過硬的前提下一個8Pin可以提供24A電流、288W的功率,兩個端子576W,稍微超載一點即可達到+12VHPWR的最高規格600W功率。原廠提供的黑粗硬模組線在端子方面肯定能滿足電氣效能需求,但是定製線的話就不好說了。個人建議是最好不要上定製線,即使沒辦法必須用定製線也不要採用2個8Pin端子轉接,當然也不排除後面定製線商家會推出加粗線纜和高質量端子,等過段時間可以關注下看看。

對於非模組電源來說就只剩下轉接一條路了,之前3090Ti上面標配的都是38Pin轉+12VHPWR轉接線,但是這個線在使用當中出現了電流負載不均衡的問題,所以這一代附贈的轉接線變成了4路8Pin轉+12VHPWR。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

具體的電流不知道怎麼分配的,但是應該解決了負載不均的問題。然後就是關於插拔壽命的限制引起了部分人的擔心,索泰在官方備註裡說這個線的插拔壽命是30次,其實之前的8Pin端子設計插拔壽命差不多也就是這個數,30次之後倒不至於損壞,而是端子的夾力會降低導致接觸電阻和端子發熱增加出現一定的安全隱患。不過8Pin端子的設計負載電流比較低,損耗一點接觸電阻不會怎麼影響使用,而12VHPWR的設計負載高,端子發熱也比較集中所以專門把這個問題提了出來。好訊息是端子的夾片都線上纜端,顯示卡和電源的端子都是實心的接線柱可靠性高得多,實在擔心這個問題,定期換線就好了,反正能在使用壽命內拔插30次顯示卡供電端子的使用者應該也不多。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

功耗方面這次也做了相應的改進,雖然電流的平均值提高了但是削峰平谷降低了峰值功耗,30繫上的易觸發電源電流保護問題應該也能得到一定程度的緩解。這次即使是AIC的卡也採用了統一的供電設計規範和料件,倒也不必為了這個專門去淘換FE版本。

測試平臺簡介

CPU:Core i9 12900K@5。5/4。0GHz

主機板:某不能說的新品

記憶體:海力士A-DIE小綠條16GB2 @ 7200C32 Gear2

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

電源採用華碩ROG Thor II 1600W,用自帶的原裝模組線接出最高600W功率上限的12VHPWR介面。Thor II電源也帶有OLED小螢幕,可以實時監控系統的總輸入功率。

順便一提Thor II 1600W的輸入埠也是16A的,以後書房裡也要預留16A介面的時代到來力(悲

理論效能測試

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

還是先來看一下GPU-Z顯示的規模資訊,RTX4090 FE採用GA102核心,CUDA核數量從完整版的18432閹割到16384,其它單元也有不同程度的削減。

功率上限方面預設450W,但是可以解鎖到600W,印象裡公版卡給這麼激進的+33%功率上限還是頭一回,以往的FE都是扣扣索索的。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

AIDA64 GPGPU Benchmark,值得注意的是測出來RTX4090的視訊記憶體頻寬高達2。3TB/s,很明顯這是測試跑在二級快取裡了。FP32單精度算力方面RTX4090達到了88TFlops,相比RTX3090Ti確實是實現了翻倍。對應的INT32、AES256之類算力也差不多翻倍,不過SHA算力幾乎不變,估計苦力效能也一樣類似於3090Ti。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

3DMark跑分系列方面確實跟之前傳聞的差不多,Time Spy Extreme分數接近20000,相比RTX3090Ti提升65。9%,應該是近五年來最大的一次效能提升,畢竟好評如潮的帕斯卡系列,1080Ti相比980Ti的提升也只是35~40%左右。

光追效能的提升比傳統效能更高一些達到了68%,另外就是DLSS,開啟DLSS3插幀之後幀數並不是簡單翻倍,由於需要消耗額外的資源,只能在DLSS2的基礎上再帶來33%左右的效能增益。

遊戲效能測試

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

標題就來自這裡,蠢驢1。6版本更新之後配置需求壓力暴漲,看來這次是比爾先行於安迪一步,4090上來就不能徹底征服4K遊戲了

光追開啟下4090相比3090Ti的實際幀數提升約56%,光追關閉時約35%。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

2K下的提升幅度變小了,只有47/33%,換句話說2K解析度下即使是如此強的CPU記憶體子系統也有一點不夠用,等一波13代和Zen4 X3D吧。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

不計算DLSS3(插幀)的情況下,4K解析度RTX4090相對RTX3090Ti的效能提升如下:

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

4K解析度平均遊戲效能提升51。19%。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

2K解析度平均遊戲效能提升38。06%。

功耗、散熱與超頻

我們採用3DMark Time Spy Extreme 20分鐘耐久度測試,統計測試過程中的功耗、溫度和風扇轉速,最近降溫了所以室溫控制為20,採用開放平臺測試,實際裝箱使用的話溫度會高一些。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

FE這個散熱器效能還是可以的,雖然只有雙風扇但是幾乎是現在顯示卡上除了貓頭鷹A12x25之外尺寸最大的,滿載完全可以在1500RPM以內將溫度壓制在60出頭,此時基本上也聽不到什麼噪聲,使用體驗很好。至於功耗方面,由於NV沒有解鎖電壓限制所以之前瘋傳的什麼500W、600W功耗根本跑不到(單純解鎖功耗也跑不到,1。05V的電壓限制非常死),實際檢測的板上最大功耗只有427W,比3090Ti還要低一些。再考慮到平均50%左右的效能進步,這代確實是能效比大提升。

RTX 4090 FE首發評測:並不能徹底征服4K遊戲

超頻方面這代應該是繼麥克斯韋之後最能超的一代,想想你有多久沒在MSI Afterburener裡給核心直接+300頻率了。當然這張卡+300過不了測,體質好點的應該可以,實際在+280、視訊記憶體24Gbps的狀態下過測,此時Time Spy Extreme分數達到20584,相比預設狀態下提升7。5%,最大功耗也來到了560W。

總結

終於來到了本次評測的尾聲,相信大家看完之後對於4090的表現應該做到了心中有數。在更大規模更高頻率的加持下4090確實有了明顯的效能提升,實際4K遊戲當中50%的效能提升幅度幾乎是近幾年來最大的一次,同時功耗不變甚至略有下降,能效比驚人。不過我們也可以發現一些問題,首先規模頻率幾乎翻倍的狀況下效能提升只有50%,這也意味著即便是增加了大容量快取,視訊記憶體頻寬對於這種規模的核心來說仍然不夠用,GDDR7甚至HBM下放遊戲卡之類的方案顯得迫在眉睫。再就是RTX4090相對於完整核心來說規模閹割有點嚴重,應該是歷代首發大核心卡閹割幅度最大的一次,並且存在嚴格的電壓限制使得所謂600W功率上限顯得毫無意義。不過按照老黃一貫的精準刀法,這些應該都是給4090S/4090Ti甚至是泰坦預留的,接下來,應該還有更多的好戲可以看。

@溢圖科技 由幾個不想躺平的老炮兒組成,主要內容包括手機、電腦、攝影器材、數碼酷玩,期待您的關注與互動。