愛伊米

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

智東西(公眾號:zhidxcom)

編輯 | 韋世瑋

智東西6月5日訊息,近日,在落幕不久的GTIC 2021嵌入式AI創新峰會上,知存科技CEO王紹迪博士以《存算一體AI晶片:AIoT裝置的算力新選擇》為題,為大家解讀了存算一體技術如何帶來更加高效的AI計算。

作為存算一體AI晶片賽道的領軍者,知存科技主要研發基於Flash的存算一體晶片。王紹迪談到,現在行業已經進入到了後摩爾時代,尤其當晶片進入到7nm和5nm階段後,研發進度放緩,晶片研發成本急劇增高,每一次迭代單個晶片成本增加1倍。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

▲知存科技創始人兼CEO王紹迪

但碎片化的IoT市場對先進工藝晶片的需求並不強烈,反而更青睞低成本、低功耗、易開發的晶片。不過,目前晶片都採用傳統的馮諾伊曼架構,最先進的儲存器仍採用1X工藝,“所以摩爾定律走到這個階段,儲存器的速度很難滿足現在行業的需求。”王紹迪說。

在他看來,現在行業大多都面臨著儲存牆問題,儲存器的資料搬運慢、搬運能耗大,快取的大小和密度都很難提升。為了解決儲存器瓶頸的問題,許多公司都採用了不同的方案,包括3D Xpoint、近記憶體計算、近儲存計算和存內計算。

其中,王紹迪認為存算一體是最高效率的AI計算。今年知存科技釋出了基於存算一體技術開發的第二代晶片WTM2101,算力相比第一代提高10倍,主要面向智慧語音和智慧健康領域,AI算力達50Gops,預計今年第四季度實現量產。

以下為王紹迪演講實錄整理:

一、摩爾定律發展放緩,先進工藝晶片研發成本高昂

存算一體是新興的晶片架構,已經研究了很長時間,嵌入式AI也是一個非常新的技術,最近一年內才開始落地。我們先來談談存算一體晶片技術的研發背景。

摩爾定律一直陪伴著我們的成長,在過去10到20年裡,硬體裝置的晶片每年都以兩倍以上的速度提升,同時晶片的成本也在降低。尤其從2000年到2010年之間,摩爾定律的增長速度都是很快的,符合每18個月算力提升一倍,成本降低一倍的節奏。

但自2010年之後,摩爾定律已經逐漸放緩,我們很難再看到每過一、兩年晶片就實現速度翻倍,成本降低。在2011年之後,每代晶片的更迭只有接近10%的效能提升。

當晶片進入7nm、5nm製程後,晶片的研發進度逐漸放緩,越來越少的玩家在先進工藝上進行研發,包括行業內能夠做先進工藝的代工廠只剩下三星、臺積電兩家,其它很多代工廠逐漸放棄了先進晶片的研究節點。

導致這一現象的原因有幾個。晶片快速發展的最主要是商業驅動,我們投入新的工藝,到新的技術節點上是不是有足夠的商業回報?

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

假設我們看現在新的技術節點推進到了7nm,研發一個晶片需要3億美元,成本遠遠高於28nm的千萬美元的研發成本;到5nm,研發成本又增加了50%,但是效能提升只有10%至20%,不像過去一代晶片比上一代效能提升100%。

未來3nm的研發成本更高,達到6。5億美元,意味著將有40多億人民幣的研發費用放到一代晶片上。但研發新一代晶片又是否能帶來足夠的利潤來填補整個投入的研發成本?

先進工藝的研發成本越來越高,生產成本也在逐漸提高,5nm的晶片成本比7nm高了一倍。當市場沒有足夠的利潤支撐後,廠商就不會採用先進工藝來生產晶片。

這也意味著,整個市場能夠真正應用先進晶片的廠商越來越少。

與此同時,目前最先進工藝最主要的應用場景是智慧手機,除此之外,高效能計算也主要採用先進工藝,其它碎片化市場很難採用先進工藝。

二、單一SoC難滿足AIoT碎片化市場,需建立正向生態

AIoT有很多的爆發機會,如果關注AIoT消費電子領域,可以發現消費電子近幾年有很多新形態產品的出貨量增速非常快,例如智慧手錶、TWS耳機(市場)在近幾年都有著指數級別的增速,資料公司統計TWS耳機在2020年出貨量有4億多。

但耳機僅僅是AIoT的一個場景,AIoT有成千上萬個場景,是不是每個場景都能爆發出這樣的能量呢?目前來看,智慧手環和智慧手錶的增速很快,智慧家居有潛力,AR/VR也有很大機會,Facebook、蘋果、微軟等都押注在這個領域。這些品類在未來會不會成為更大的市場?目前是未知數。但不可否認的是,AIoT有很多的機會。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

AIoT有一個特點,它是一個碎片化市場,這就導致了它的碎片化需求特別多,同時需要晶片做到低成本、易開發,低功耗,難度很大。

同時,單一的SoC只能滿足有限個應用場景。導致晶片公司在設計晶片時,需要去考慮晶片到底要覆蓋什麼樣的場景,有多大的市場。

不同的AIoT場景需求變化很大,有些場景需要成本極低,有些場景需要功耗極低。但晶片設計無法做到二者兼顧,兼顧過多導致冗餘度增高,成本效率都會變差。

AIoT任何一個細分場景都需要一個好的生態,之前兩位嘉賓都講到了從系統和演算法層面AIoT生態的建立,包括商湯和大華在生態建立方面也做了非常多貢獻。這個生態要有好用的系統、好用的應用、好用的演算法,同時晶片也要好用,成本足夠低,最重要的是開發快。當這些東西都齊備的時候,這個場景的市場就會爆發起來。

例如,智慧耳機市場在過去兩三年內處在飛速發展階段,應用和種類越來越多,晶片也越來越便宜。更重要的是,TWS耳機的開發速度很快,一款簡單的TWS耳機從開始研發到做出來,只需要兩個月左右的時間。

如果一個新的場景不具備這三個條件中的任何一個,這個市場就很難高速增長。同時,這三個條件又是互相驅動的,首先要有合適的晶片,晶片可以執行合適的系統,系統需要豐富的應用,這樣產品開發和創新速度都可以大幅度增速,市場可以快速發展,市場發展起來之後再去驅動系統、應用和晶片的迭代升級。

生態需要很多的廠商去參與建立,生態也會帶來收益,很多市場會因為生態建立而爆發。

三、傳統晶片架構面臨儲存牆瓶頸

說回到我們做的事情,當前嵌入式晶片都採用馮諾依曼架構,存算一體是一種不同於馮諾依曼的新架構,過去的7-8年處於快速發展階段。

新計算架構和傳統計算架構有非常大的不同,新計算架構面臨著生態問題,沒有合適的演算法和系統,而傳統的馮諾依曼架構從上世紀40年代開始就已被應用,生態已經非常完備。

馮諾依曼架構為了速度越來越快,儲存器分級會越來越多,最簡單的分級有快取、記憶體、儲存。在複雜分層中,會有8-9級,越往外的儲存介質密度越大,速度越慢,越往內的儲存密度越小,速度越快。

儲存和記憶體的工藝尺寸發展落後於邏輯工藝,儲存器件很難縮小,即使是最先進的儲存和記憶體,依然採用10nm到20nm的工藝,這意味著儲存器的速度很難滿足現在的計算需求。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

我們在馮諾依曼架構中做運算時,資料需要在多級儲存之間搬運。內部快取的速度快,但是容量小,當資料量很大時,資料會跑到外面的儲存器當中,但外面的儲存器速度相對較慢。

當前晶片的計算效率很高,不管採用28nm還是5nm。但是儲存、記憶體、快取的延遲和功耗遠高於計算單元,導致儲存牆問題。

從功耗對比圖可以看出來,常用運算的功耗在0。x和x pJ,快取和記憶體讀取資料的功耗達到了100pJ和2000pJ。並且讀取功耗隨著儲存器密度增大而增大。

計算中需要的資料量越來越多,資料量的需求每年都呈幾何倍數增長,但是儲存器的速度很難提高。尤其在現在的高算力和大資料的時代,處理器的核越來越多,但是儲存器頻寬提升很少,每個核使用的頻寬越來越小,突破儲存牆瓶頸顯得尤為重要。

四、存算一體架構的優勢,模擬計算更高效

過去十年很多公司為了解決儲存牆瓶頸的問題,採用了以儲存/記憶體為中心的計算架構。將晶片、記憶體、儲存兩兩組合拉近,減少資料搬運距離,都可以解決一部分問題。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

比如美光和英特爾推出3D Xpoint儲存器,結合儲存和記憶體,這個儲存器速度比記憶體稍微慢一些但比硬碟快,密度比記憶體大但比儲存小,這是一個儲存型的記憶體(Storage Class Memory)。

另外,像三星、臺灣力晶推出DRAM和邏輯晶片的3D Stacking晶片,可以大幅度提高記憶體和晶片之間的頻寬。

近儲存計算也是一種方案,在硬碟中增加一個計算晶片,釋放CPU的計算壓力。

存算一體屬於其中最特別的一種方式,相對於其它三種計算方式,存算一體計算方式直接採用儲存器單元做運算,而不是把儲存器和運算晶片的距離拉近,計算更為高效。

存算一體可採用模擬計算,模擬計算近幾年的發展很快,它的一個特點是可以直接用儲存器單元完成運算,可採用不同的儲存器介質,例如SRAM、Flash、RRAM。

模擬計算把向量乘矩陣的運算對映到儲存器當中,直接用儲存器完成向量乘矩陣的運算,整個運算過程中沒有乘法器、加法器以及其他邏輯計算單元參與。

五、3年量產存算一體晶片,用Flash做運算

今年是知存科技創始團隊研發存算一體技術的第九年。早期從2012至2016年,當時存算一體沒有主流的方向,沒有主流架構,創始團隊採取Flash存算一體進行流片嘗試,也是個實驗科學。

2016年,我們完成了第七次流片,也是存算一次晶片的首次驗證。2017年獲得近四千萬的專案投資後,公司成立,專注於存算一體技術開發。

真正把實驗室的技術做到產品級,中間有非常多坎坷的路要走,從2017年底開始做存算一體產業化,到2020年釋出第一個存算一體產品,再到今年把第一個存算一體晶片量產,同時推出第二代產品,經歷過十多次晶片的迭代。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

過去九年我們嘗試過很多儲存器,包括新型儲存器,最終選擇Flash的原因是——它是現在非常成熟、密度高、運算效率也是最高的儲存器之一。

固態硬碟、USB盤、ROM、嵌入式儲存都使用的是浮柵電晶體。存算一體技術用浮柵電晶體儲存資料又用它完成乘加法運算。浮柵電晶體類似MOS電晶體,可以像用MOS電晶體處理模擬訊號一樣完成訊號的線性放大和累加。同時浮柵電晶體可以被程式設計,從而改變其訊號放大能力。

基於這種做法,等同於將Flash儲存器的每個儲存單元都變成一個乘加法器,這樣意味著一個2Mbit的小Flash陣列變成了兩百萬個乘加法器,達到百萬級的並行算力。

六、第二代存算一體晶片將於今年Q4量產

我們的第二代晶片WTM2101是基於最先進的eFlash工藝設計,用於嵌入式場景,包括智慧語音、智慧健康、輕量級視覺等場景。

WTM2101晶片的功耗在幾十微安到十幾毫安,算力最大為50Gops,最大支援1。8M的權重引數,現在基於該晶片移植了很多商用演算法,將在今年第四季度量產。

這個晶片可用於VAD喚醒、語音識別、通話降噪、聲紋識別等,可以應用在很多嵌入式領域中,包括健康監測,以及極低功耗(毫安級)的視覺識別。近一年來,我們發現有很多過去不存在的應用場景,說明AIoT創新在加速,市場在增大。

知存科技王紹迪:突破儲存牆瓶頸,詳解存算一體架構優勢

我們的晶片配有深度學習網路對映工具WITIN Mapper,可以將深度學習演算法自動對映到存算一體矩陣當中,然後按順序執行運算。單次執行最多包含40個矩陣,透過多次執行可以執行更大規模的網路,例如我們已經映射了一個100多層的網路,每層網路的運算只需要一個存算一體指令。

今後幾年,我們會和合作夥伴緊密配合,一起推動存算一體的AIoT生態。謝謝大家!

以上是王紹迪演講內容的完整整理。