愛伊米

晶片良率危機凸顯

晶片良率危機凸顯

圖片來源@視覺中國

文 | 半導體產業縱橫

近期,半導體業倍受關注的一大熱點事件是三星官宣量產3nm製程晶片。實際上,在官方訊息發出之前,業界就一直在議論此事,焦點就是良率問題。由於在追趕臺積電的道路上不遺餘力,三星幾乎用盡渾身解數,這一次,在臺積電即將於下半年量產3nm製程之前,搶先宣佈量產,比拼的意味濃厚。但從近些年的情況來看,在先進製程工藝方面,屢屢被臺積電碾壓,一個很重要的原因就是三星難以保證良率,這在獲取客戶信心方面是個很大的減分項。

前些年,在10nm和7nm製程剛量產的時候,高通驍龍845 SoC由三星代工生產,驍龍855、865則由臺積電7nm製程工藝生產,英偉達原計劃由三星生產的7nm製程GPU晶片,也轉移到了臺積電。那時,三星在良率方面就落後於臺積電,訂單量明顯少於對手。

2021年,4nm製程興起,高通將驍龍 8 Gen1 Plus的生產訂單轉給了臺積電,很重要的原因就是三星4nm製程工藝的良率僅為35%左右,與臺積電超過70%的良率相比差太多。

今年2月,據韓媒Infostock Daily報道,三星電子懷疑旗下晶圓代工廠的產量及良率報告存在造假行為,因此,三星DS部門受到了管理諮詢部門對其晶圓代工廠5nm製程良率的調查,緊隨其後的將是4nm和3nm調查。該事件的起因是,三星晶圓代工業務飽受低良率之苦,特別是4/5nm製程量產後,出現了良率極其低下的情況,交貨時間不斷延後,招致了三星高層的懷疑。一位熟悉三星電子內部情況的高管表示:“由於晶圓代工業務交付的數量難以滿足最近的訂單需求,我們對非記憶體工藝的良率表示懷疑,眾所周知,基於該良率(指此前良率報告的資料)是可以滿足訂單交付的。”管理諮詢部門的懷疑物件是DS部門現任及前任高管,調查內容包括:之前遞交的良率報告是否真實,用於提升良率的資金究竟流向何方。

今年6月,三星任命了記憶體製造技術中心副總裁Kim Hong-shik領導晶圓代工技術創新團隊。透過改組,三星調動儲存晶片專家來領導代工業務的核心部門。此次,晶圓代工部門的重組,也是為了改善3nm晶片良率,努力反超臺積電。

臺積電之所以能在先進製程方面領先全球,高良率是殺手鐧。據悉,該公司7nm製程在量產開始3個季度後,其不良率降至每平方釐米0。09,5nm製程量產初期,不良率低於同期的7nm,缺陷密度大約為每平方釐米0。10~0。11,隨著5nm晶片量產程序的推進,不良率降至0。10以下。

另一大晶片巨頭英特爾也飽受良率困擾,2020年7月,該公司釋出訊息稱,原計劃於2021年底上市的7nm晶片,因工藝存在缺陷,導致良率下降,釋出時間推遲6個月。在此之前,英特爾在10nm製程的研發過程中就遇到了很多困難,多次延期,2019年初才實現量產。

綜上,晶片良率的重要性可見一斑。

晶片良率簡析

簡單的說,晶片良率就是晶圓上合格晶片數量與晶片總數的比值,這個數值越大,說明有用晶片數量越多,浪費越少,成本也就越低,利潤越高。

良率還可以細分為wafer(矽晶圓)良率、die良率和封測良率,這三種良率的乘積則是總良率。總良率是所有晶圓廠的核心機密,外界很難知曉。它可以反應出這家晶圓廠製造晶片的總體水平和營收能力。

晶片製造的每一個階段,從晶圓製造、中測、封裝到成測,每一步都會對總良率產生影響,其中,晶圓製造是影響良率的主要因素。

良率還受裝置、原材料等因素影響,要想達到較高水平,需要穩定工藝裝置,定期做工藝能力恢復。另外,環境因素對以上提到的三種良率都會產生影響,如塵埃、溼度、溫度和光照亮度等,晶片製造和封測過程需要在超潔淨的工作環境中進行。

另外,wafer的尺寸會直接影響良率,一般情況下,中心區域的良率較高,邊緣區域的良率較低(這是由製造工藝決定的)。wafer尺寸越大,中心區面積佔總面積比例也大,良率越高。

良率不是一成不變的,它會隨著工藝技術的不斷成熟而提升。一般情況下,新制程工藝剛量產的時候,良率比較低,隨著生產的推進,以及導致低良率的因素被發現和改進,良率會不斷提升,較為成熟的產線良率可以達到95%以上。

很多半導體公司都有專門從事良率提升工作的工程師,在晶圓廠,有專門的良率提高(YE)部門,良率工程師負責提高晶圓良率;在IC設計企業,運營部門有專業的產品工程師(PE)負責提高良率。

拿什麼拯救你,我的良率

晶片良率如此重要,全行業都非常關注,晶圓廠、IC設計企業、半導體裝置和材料廠商,以及行業科研機構都在進行各種研究探索,為提升晶片良率添磚加瓦。

當然,提升良率的主戰場依然是晶圓廠(IDM廠或晶圓代工廠)。要提升良率,首先需要深入研究晶片良率與可靠性之間的關係,而可靠性與晶片缺陷有直接關係,因此,減少晶片生產過程中的缺陷數量可以提升基準良率,同時可以提高器件的可靠性。

為了提高可靠性,需要投入時間、資金和相關資源,以提高良率,這就需要進行權衡,因為不同型別晶片對可靠性的要求不同,與之對應的資源投入也不同,這也會直接影響利潤。例如,消費類電子產品用晶片對可靠性要求沒有那麼高(與工業和汽車晶片相比),因此,對於這類晶片,達到一定良率之後,晶圓廠不會做再高的追求,而是將資源分配到開發下一個節點的製程和裝置,這樣可以提高成熟節點的盈利能力。而對於高可靠性要求的晶片(如車用晶片,其可靠性要求比消費類晶片高兩至三個數量級),晶圓廠必須追求更高的基準良率水平,也就需要在製程工藝和裝置方面投入更多資源。不過,高效能與高良率之間是存在矛盾關係的,很難兼顧。

對於晶圓廠而言,大多數影響良率的系統性問題都已解決,實際良率損失主要是由製程裝置或環境的隨機缺陷造成的。為了檢測出可靠性缺陷,晶圓廠的產線必須具備相應的製程控制裝置和檢測取樣機制,採用的缺陷檢測系統必須具備所需的缺陷靈敏度,並維護良好且達到規格。檢測取樣必須針對製程步驟達到足夠的頻次,以快速檢測到製程或裝置的偏移。此外,必須有足夠的檢測產能用以支援加速異常偵測。

在實際操作過程中,常見的難點是精確找出基準缺陷的出處,有時,缺陷產生之後經過多個製程步驟才被檢測到,這對裝置監控系統和機制的要求很高,做不好的話,常常找不出問題的根源在哪。為了解決這個問題,系統會先檢測一片晶圓,使其在指定的製程裝置中執行,然後再次檢測,第二次檢測發現的任何新缺陷必定是由該指定的製程裝置產生的,這樣,就可以找出缺陷的根源所在。因此,設定好一套靈敏的檢測機制,可以揭示源自每個製程裝置的隨機良率損失並將其解決。

此外,晶圓廠可以對每個裝置上出現的缺陷進行分類,並生成資料庫,可作為現場故障的失效分析參考。這種方法需要非常頻繁的裝置認證(至少每天一次)。

透過以上這些措施和方法,晶圓廠可以有效控制缺陷,從而提升晶片良率水平。當然,除了這些,晶圓廠還有其它提升良率的方式方法,這裡就不再贅述了。

除了晶圓廠產線的流程控制,產業鏈上游的半導體材料廠商,特別是矽晶圓廠商,也可以透過創新技術,在晶圓層面為提升良率提供保障。

例如,來自韓國科學與資訊通訊技術部下屬的韓國機械與材料研究所(KIMM)和新加坡南洋理工大學(NTU)的科學家開發了一種技術——新型奈米轉移印刷技術(Nanotransfer-basedprinting),它可以製造出高度均勻的矽晶圓。他們將無化學粘合劑列印技術與金屬輔助化學蝕刻相結合,可以用於增強表面對比度以使奈米結構可見。

這種奈米轉移印刷技術是透過在相對低溫(160°C)下將金(Au)奈米結構層轉移到矽襯底上,形成具有奈米線(nanowires)的高度均勻的晶圓,以實現在製造過程中控制所需的厚度。這種技術允許快速、均勻、大規模製造晶圓,同時,製造的晶圓幾乎沒有缺陷,生產出的晶片良率非常高。在實驗室測試中,能夠將99%的20nm厚Au薄膜轉移到6英寸晶圓上。當採用該方法加工6英寸晶圓時,結果顯示印刷層保持完整,在蝕刻過程中彎曲最小,證明該Nanotransfer-basedprinting技術具有出色的均勻性和穩定性。

KIMM-NTU團隊認為該技術可以很容易地擴充套件到12英寸晶圓上,而這是三星,英特爾、臺積電和GlobalFoundries等晶圓廠產線中的主流晶圓尺寸。

效能與良率之爭

談到晶片良率,就不能不談效能,因為這兩者之間是存在矛盾關係的。在消費類電子產品晶片大行其道的時代,良率佔絕對上風,因為消費電子產品對效能的要求沒那麼高。但隨著近些年消費電子市場的疲軟,相應地,高效能計算(HPC)、汽車電子市場快速發展,且潛力巨大,而這些型別的晶片對效能要求極高,此時,良率就不得不做些讓步了,因為在絕對高效能的量產要求下,良率不可能做得像消費類晶片那麼高。

這樣,各種新型晶片架構就湧現了出來。最具代表性的,也是最極端的就是Cerebras的晶圓級大晶片。

2019年8月,人工智慧初創公司Cerebras Systems釋出了Cerebras Wafer Scale Engine(WSE)處理器,這是一個超大晶片,由一個12英寸晶圓製成。而傳統晶片則很小,一個12英寸晶圓可以製造出三、四百個晶片。

WSE擁有1。2萬億個電晶體,專門面向AI任務開發,這顆巨型晶片,面積達到42225平方毫米。

通常情況下,晶圓廠不會製造這麼大的晶片,因為在單個晶圓的加工過程中通常會出現一些雜質,雜質會直接影響晶片良率,而單個晶片越大,整體良率越低。像Cerebras這麼大的晶片,其良率保障是個凸出的問題。不過,Cerebras Systems公司表示,其設計的晶片留有冗餘,一種雜質不會導致整個晶片都不能用。

2021年4月,Cerebras Systems公司又推出了WSE的升級版WSE-2,集成了2。6萬億個電晶體。該公司稱設計出了一個可以繞過任何製造缺陷的系統來實現100%的良率,最初,Cerebras有1。5%的額外核心允許缺陷的存在。

之所以會出現WSE這樣的超大晶片,原因在於,高效能計算市場對效能的敏感度高於價格,高效能計算市場的主要客戶並非C端,而是B端的行業客戶,他們對成本不敏感,最關心的是效能。特別是近些年,AI在雲計算市場的應用風起雲湧,雲端AI晶片的客戶主要是谷歌這樣的網際網路巨頭,在這些巨頭眼裡,算力就是王道,它們對算力的追求幾乎是無止境的,這一點和信奉“夠用就好”的消費電子市場完全不同。

當然,像Cerebras Systems公司這樣的晶片屬於極端案例,大多數情況下,高效能計算市場的晶片尺寸還是在傳統範圍以內。但良率與效能之間的矛盾問題還是有增無減。需要有新的解決方案。

此時,Chiplet應運而生,它在兼顧效能和良率方面有獨到之處。如果要提升效能就必須減少片外通訊,而想提升良率則必須保證單一芯片面積不能太大。Chiplet方案恰恰能同時兼顧這兩點。Chiplet可將單一芯粒(die)面積做小(確保良率),並用高階封裝技術把不同的芯粒整合在一起。這樣,芯粒之間的通訊並不需要走PCB板,可以在封裝內進行,這就大大降低了片外通訊的開銷。AMD最先在資料中心商用了Chiplet方案,且取得了良好的效果,看到商機後,英特爾也在跟進,開發了一整套先進製程工藝和封裝技術。

總之,在先進製程不斷迭代的今天,晶片良率問題變得越來越突出,與此同時,高效能需求也在給良率找麻煩。一切都好難,能夠玩轉這些的廠商恐怕會越來越少。