關於DRAM過去、現在與未來展望

更新 發佈閱讀 36 分鐘

摘要

過去十年,DRAM 的發展遇到了瓶頸,密度提升緩慢,成本降低有限,嚴重阻礙了需要大量記憶體資源的 AI 計算發展。為了克服這個「記憶體牆」問題,短期內可以通過 4F2 單元佈局、垂直通道電晶體 (VCT) 和 HBM 等技術改進現有 DRAM 效能。長期來看,開發嵌入式運算記憶體 (CIM)、鐵電RAM (FeRAM)、磁阻式隨機存取記憶體 (MRAM) 等新型記憶體技術,並採用 3D DRAM 架構,將是解決方案的關鍵所在。這些創新有望顯著提升記憶體頻寬、容量、成本和功耗,為 AI 和其他高效能運算應用提供更強大的支援。


重點

  • 過去十年中,DRAM 密度僅提升了 2 倍,與邏輯電路相比發展緩慢,導致記憶體成本居高不下,成為 AI 發展的瓶頸。
  • HBM 作為當前 AI 加速器主流記憶體方案,雖然提供了高頻寬,但其成本高昂且難以擴展。
  • 4F2 單元佈局和垂直通道電晶體 (VCT) 技術可望在短期內提升 DRAM 密度和效能。
  • LPDDR5X 憑藉低功耗和相對較高的容量,在 AI 加速器中成為僅次於 HBM 的第二層記憶體方案。
  • FeRAM 和 MRAM 等新型記憶體技術具有潛力,但目前尚未達到足以挑戰 DRAM 的成熟度和成本效益。
  • 嵌入式運算記憶體 (CIM) 將控制邏輯整合到記憶體晶片中,有望大幅提升記憶體效能和能源效率。
  • 3D DRAM 架構將為記憶體產業帶來革命性變化,預計將成為未來 DRAM 發展的重要方向。
  • 1. DRAM 擴展停滯:

- 在過去,DRAM 的位元密度每18個月翻倍一次,速度超過了邏輯晶片的發展速度。然而,過去十年內,DRAM 的密度僅增加了2倍,顯示出擴展速度顯著放緩。

  1. 計算性能與DRAM的差距:

- 人工智慧的快速發展進一步擴大了邏輯晶片與DRAM之間的速度差距。雖然邏輯晶片的密度和成本持續改善,但DRAM 的速度和密度提升相對緩慢。

  1. 高帶寬記憶體(HBM):

- HBM 是AI加速器記憶體的核心技術,儘管其成本是標準DDR5的三倍以上,但隨著AI模型權重的增長,需求也在迅速增加。HBM 的製造成本在最新產品中佔比高達50%以上,並且在未來會變得更複雜。

  1. DRAM的瓶頸與未來挑戰:

- DRAM的增長遇到瓶頸,計算性能的提升速度超過記憶體增長速度。如何加速DRAM創新,以提高帶寬、容量、成本和功耗,成為關鍵問題。

  1. 可能的解決方案:

- 短期方案包括延長HBM的產業路線圖,4F2 DRAM和垂直通道晶體管(VCT)的技術改進。長期方案可能包括內存計算(CIM)、新型記憶體如鐵電RAM(FeRAM)或磁性RAM(MRAM),以及3D DRAM的開發。

  1. DRAM簡介與歷史:

- DRAM 由1T1C單元(1個電晶體和1個電容器)組成,通過感測放大器來放大微弱信號。DRAM的發展曾受益於摩爾定律和Dennard縮放,但如今,DRAM的擴展已經逐漸減慢,成為計算能力提升的瓶頸。

  1. 技術挑戰:

- DRAM在縮放至更小的納米尺寸時面臨電容器和感測放大器的技術挑戰,使得傳統擴展變得困難。這推動了對新技術的需求。

世界越來越多人質疑摩爾定律是否已經終結,但悲哀的是,它其實早在十多年前就已經悄然逝去,沒有任何慶祝或頭條新聞。人們通常關注的是邏輯電路,但摩爾定律其實一直也適用於DRAM。


完整文章翻譯:

DRAM 已經無法再繼續擴展了。在過去輝煌的日子裡,記憶體的位元密度每18個月就翻倍一次 – 甚至超過了邏輯晶片的發展速度。這相當於每十年密度增加100倍以上。但在過去這十年,擴展速度已經慢到密度僅僅增加了2倍。

如今,隨著人工智慧的爆炸性發展,行業的平衡被進一步打破。雖然邏輯晶片的密度和每個晶體管的成本隨著時間顯著改善,但DRAM的速度提升卻相對緩慢。儘管面對大量的恐懼、不確定性和懷疑(FUD),台積電的3納米和2納米製程每個晶體管的成本仍然不斷下降。而在記憶體方面,帶寬的增加則是依賴於昂貴且技術高超的封裝。


高帶寬記憶體(HBM)是加速器記憶體的支柱,每GB的成本是標準DDR5的3倍以上。客戶如果想要製作有競爭力的加速器套件,幾乎別無選擇,只能接受這個現實。這種平衡並不穩定,未來的HBM世代會變得越來越複雜,層數也會持續增加。隨著模型權重接近多TB級,AI記憶體的需求正在爆炸式增長。以H100為例,製造成本中約有50%以上歸因於HBM,而隨著Blackwell的出現,這一比例增長至約60%以上。


換句話說,DRAM產業已經遇到了瓶頸。儘管計算性能的提升在放緩,但它的增長速度大大超過了記憶體的增長。那麼,DRAM的創新速度該如何重新提速?未來又可以利用什麼創新來改善帶寬、容量、成本和功耗呢?


有許多可能的解決方案。面對數千億的AI資本支出,產業有強烈的動機推動這些解決方案的前進。


在簡介DRAM的背景和歷史之後,我們將涵蓋現代“記憶牆”所面臨的每個問題以及可能的解決方案。我們會討論較簡單、短期的想法,比如延長HBM的產業路線圖,還有更複雜、長期的選擇,例如內存計算(CIM)、新型記憶體如鐵電RAM(FeRAM)或磁性RAM(MRAM),以及即將到來的4F2 DRAM和3D DRAM。


DRAM簡介:工作記憶體

電腦中使用了幾種類型的記憶體。最快的是靜態隨機存取記憶體(SRAM),它與邏輯處理技術相容,位於CPU或GPU上。由於它位於邏輯晶片上,SRAM也是最昂貴的記憶體類型——每字節的成本超過動態隨機存取記憶體(DRAM)約100倍以上,因此只用於少量應用。另一端的光譜包括非易失性的NAND固態硬碟、硬碟驅動器和磁帶。這些儘管便宜,但對許多任務來說速度太慢。DRAM正好處於SRAM和Flash之間的“剛好好”的區域——速度足夠快,價格也夠便宜。


DRAM在非人工智慧伺服器系統中的成本可佔到一半。然而,在過去的十年裡,它在所有主要邏輯和記憶體中都是擴展速度最慢的。16Gb的DRAM晶片在八年前首次大量推出,但至今仍然是最常見的晶片;當時它們的價格約為每GB 3美元,最高曾接近5美元,然後在過去的12個月內回落到3美元左右。速度方面,若有變化,反而稍微慢了一點。功耗方面改善是最顯著的,主要得益於LPDDR的興起,這是一種使用更短、更高效導線的封裝變化,但這方面的標準實在不高。DRAM擴展的缺乏進展成為了技術和經濟瓶頸,阻礙了計算能力的提升。


DRAM入門:基本架構  

理論上,DRAM是簡單的。它由一個佈局成網格的記憶體單元陣列組成,每個單元儲存一個位元的信息。所有現代的DRAM都使用1T1C單元,代表1個電晶體和1個電容器。電晶體控制進入單元的訪問,而電容器則以小電荷的形式儲存信息。


字線(WL)連接單一行中的所有儲存格;它們控制每個儲存格的存取晶體管。位線(BL)連接單一列中的所有儲存格;它們連接到存取晶體管的源端。當字線被啟動時,該行中所有儲存格的存取晶體管會打開,允許電流從位線流入儲存格(寫入儲存格時)或從儲存格流向位線(讀取儲存格時)。同時只有一條字線和一條位線會被激活,這意味著只有在活躍的字線和位線交匯的那一個儲存格會被寫入或讀取。


充電能從位線流向電容,也可以反方向流動,這要在字線激活存取晶體管的情況下進行。來源:Branch Education


動態隨機存取記憶體(DRAM)是一種揮發性記憶體技術:儲存電容會漏電,因此需要頻繁刷新(最頻繁可達約每32毫秒)以保持儲存的數據。每次刷新會讀取一個儲存單元的內容,將位線的電壓提升到理想水平,然後讓這個刷新後的值再流回電容。刷新完全在DRAM晶片內進行,並不會有數據進出晶片,這樣可以將浪費的電力降到最低,但刷新仍然可能佔總DRAM電力消耗的10%以上。


電容器就像晶體管一樣,被縮小到納米級的寬度,並且極端的長寬比約為1,000納米高,但直徑只有幾十納米——長寬比接近100:1,電容值約為6-7 fF(飛法拉)。每個電容器儲存的電量極小,當新寫入時大約為40,000個電子。


儲存單元必須透過位線進出電子,但施加在位線上的電壓會被連接到同一位線的其他所有儲存單元稀釋。位線的總電容可能超過30fF,這樣的稀釋達到5倍。位線也非常細,這會減慢電子的速度。最後,如果儲存單元最近沒有刷新,可能已經放電顯著,因此只剩下一小部分電量可供輸出。


所有這些因素意味著,為了讀取其值而放電儲存單元可能會產生非常微弱的信號,需要進行放大。為了這個目的,每條位線的末端都有感測放大器(SA),用來檢測從記憶體單元讀取的極小電荷,並將信號放大到有用的強度。這些增強的信號則可以在系統的其他地方被讀取為二進制的1或0。


感測放大器的電路設計非常巧妙:它會將活動的位線與不在使用的匹配鄰近線相比較,從兩條線的電壓相似開始。活躍的位線上的電壓將與非活躍的鄰線進行比較,使感測放大器出現不平衡,並使其將差異放大回那條活躍的位線,這樣不僅放大了信號,還將一個新的高或低的完整值驅回到仍然對位線開放的儲存單元。這就像一舉兩得的情況:在同時閱讀和刷新儲存單元。


在讀取/刷新完活躍的儲存單元後,該值可以被複製到晶片外或被寫入操作覆蓋。寫入操作會忽略刷新後的值,並使用更強的信號強行將位線調整為新的值。當讀取或寫入完成後,字線會被禁用,這樣會關閉存取晶體管,從而將任何存在的電荷困在存儲電容中。


DRAM入門:歷史(當DRAM仍然可以縮放時)

現代DRAM的實現得益於兩項獨立且互補的發明:1T1C記憶單元和感測放大器。


1T1C儲存單元是在1967年由IBM的Robert Dennard博士發明的,他同樣因提出的MOS晶體管縮放定律而廣為人知。DRAM和縮放都基於MOS晶體管(金屬氧化物矽,也就是晶體管閘的層)。


儘管1T1C記憶體單元結構的發明,英特爾在1973年推出的早期DRAM依然使用每個單元3個晶體管,其中中間的晶體管的閘極作為儲存電容。這是一個“增益單元”,中間的晶體管和最後一個晶體管提供增益,以放大中間閘極上非常小的電荷,使得該單元能夠輕鬆地被讀取而不干擾已儲存的數值。


理論上,1T1C單元更好:設備更少,接線更簡單,且體積更小。那麼為什麼不立即採用呢?因為當時還不實際能讀取該單元。


在發明這項技術時,1T1C單元的小電容使其無法運作。需要第二個關鍵的發明:感應放大器。


第一個現代化的感應放大器是由卡爾·斯坦於1971年在西門子開發的,並在加州的一次會議上介紹,但卻完全被忽視。當時1T1C架構並未廣泛採用,而西門子對這項發明也沒有任何想法可行。斯坦被調到另一個任務,在那裡他展開了與DRAM無關的成功職業生涯。


這個設計與位線的間距非常匹配,並且能夠縮小以跟上單元大小的變化。當不使用時,感應放大器會完全關閉,這樣在晶片上就可以有數百萬個而不會耗電。它們簡直是一個小奇蹟。


感應放大器的時代來臨花了超過五年的時間。Robert Proebsting 在 Mostek 獨立(重新)發現了這個概念,到了1977年,他們的16kb DRAM採用了1T1C + SA架構,成為市場的領導者。這個成功的公式一直延續至今——近五十年後,DRAM架構基本上是相同的。


DRAM簡介:當DRAM停止縮放

在20世紀,摩爾定律和Dennard縮放主導了半導體產業。在其巔峰時期,DRAM的密度增長超過了邏輯元件。每個晶片的DRAM容量每18個月翻一番,推動了日本晶圓廠的崛起(他們在1981年首次超過美國市場份額,並在1987年達到約80%的巔峰),隨後是韓國公司(他們的市場份額在1998年超過了日本)。相對簡單的工藝快速更替的晶圓廠為有資金建造下一代晶圓廠的新進入者創造了機會。


這種速度無法持續太久,到20世紀末進入21世紀時,邏輯運算的增長速度明顯超過了記憶體的擴展。近期邏輯運算的增長速度已減緩至每兩年約30-40%的密度提升。不過,相較於動態隨機存取記憶體(DRAM),這仍然算不錯,因為DRAM現在在高峰期後速度大約慢了一個量級,如今需要10年的時間才能實現2倍的密度增長。


這次縮放減慢對DRAM價格動態產生了連鎖反應。儘管記憶體傳統上是一個周期性產業,但密度縮放的緩慢意味著在供應受限時,成本降低的幅度大大減少,無法緩衝價格上漲。增加DRAM供應的唯一方法就是建造新的晶圓廠。劇烈的價格波動和高額資本支出意味著只有最大的公司才能生存:在1990年代中期,超過20家廠商生產DRAM,前10大廠商佔據了80%的市場份額。現在,前3大供應商已經擁有超過95%的市場。


由於DRAM已商品化,供應商本質上對價格波動更為敏感(與邏輯或模擬電路相比),當市場低迷時,必須主要依靠商品的原始價格來競爭。雖然邏輯電路以不斷增加的成本維持摩爾定律,但DRAM並沒有這樣的奢侈。DRAM的成本簡單明了,以美元每吉位($/Gb)計算。與早些時期相比,過去10年價格的緩慢下降顯而易見——在以前需要半個時間的情況下,十年間只有1個量級的跌幅。DRAM特有的峰谷行為也同樣明顯。


自從進入10納米工藝以來,DRAM的位元密度就停滯不前。即使在三星的1z和SK海力士的1a工藝中加入EUV,也沒有顯著增強密度。電容器和感測放大器是兩個顯著的挑戰。


電容器在許多方面都很困難。首先,圖形化要求很高,因為孔必須緊密排列,並且必須很好地控制關鍵尺寸(CD)和對準,以便接觸下面的訪問晶體管,避免橋接或其他缺陷。電容器的長寬比非常高,刻蝕出直而窄的孔型特別困難,而且需要使用較厚的硬膜來進行更深的刻蝕,而這會需要 thicker 的光刻膠,這樣更難以進行圖形化。


接下來,必須在孔型壁上沉積幾納米厚的多層無缺陷材料,以形成電容器。幾乎每一步都在挑戰現代加工技術的極限。


感測放大器的情況和邏輯互連很相似。曾經被視為附帶考量的它們,如今在難度上已經和「主要」特徵(邏輯晶體管和記憶體單元)平起平坐,甚至更為困難。它們受到多方面的壓力。面積縮放必須與位線縮小相匹配,隨著感測放大器變得更小,它們的敏感度降低,並且更容易受到變異和漏電的影響。與此同時,更小的電容器儲存的電荷也更少,因此讀取它們的感測要求變得更加困難。


還有其他挑戰,總的來說,使用傳統方法以經濟的方式擴展DRAM變得越來越困難。這為新想法打開了大門——讓我們來探索一些吧……


短期擴展:4F2和垂直通道晶體管

在短期內,DRAM的擴展將繼續沿著傳統的路線圖發展。對架構的更大根本改變需要數年時間來開發和實施。與此同時,行業必須回應對更好性能的需求,即使只是微小的改進。


短期路線圖有兩項創新:4F2電池佈局和垂直通道晶體管(VCT)。

請注意,一些公司,包括三星在他們的計劃中,將VCT歸類在“3D”標籤下。雖然從技術上來說這是正確的,但這有些誤導,因為VCT與通常所稱的“3D DRAM”是不同的。


4F2描述了記憶體單元區域,這與標準邏輯單元高度的最小特徵尺寸F相似,例如“6T單元”。最小特徵尺寸通常是線條或空間的寬度,在DRAM中,這通常指的是字線或位線的寬度。這是一種簡單的方式來表示單元佈局的密度,使得比較變得容易——4F2單元的大小只有6F2單元的2/3,理論上在不縮放最小特徵尺寸的情況下提供30%的密度提升。但要注意,純粹的單元佈局並不是密度縮放的唯一限制,因此實際的好處很可能低於理想的30%。


4F2是單一位元單元的理論上限。記住,特徵尺寸是線條或空間的寬度(即半間距),因此線+空間圖案的間距是2F,而不是F,因此最小可能的單元大小是4F2而不僅僅是F2。因此,一旦實現了這一架構,水平縮放的唯一途徑就是縮放F本身——這在快速變得不切實際,甚至是不可能的。


自2007年以來,DRAM使用6F2佈局,在此之前是8F2(有趣的是:現代NAND已經使用4F2單元,但特徵尺寸F卻大得多。SRAM的密度則有120 F2,低20倍!)


一個顯著的例外是CXMT,這是一家中國供應商,他們在其打破制裁的18納米DRAM中使用了VCT和4F2佈局,並於2023年底進行了展示。由於三星、SK海力士和美光能夠縮放單元,因此他們並未像CXMT那樣被迫採用這些架構。CXMT早期採用的意義也很重要——他們可能在縮放F方面遇到了困難,因為他們選擇了更大幅度改變單元和晶體管架構的路徑。


4F2單元的關鍵元素是垂直通道晶體管。這是必需的,因為晶體管必須縮小以適應單元,並且連接——到位線和電容器的聯接——也必須適合在這樣的面積內,因此,必須有一個垂直線。在這樣的尺度下,必須垂直構建晶體管,而不是水平構建,這樣可以將其佔用的面積縮小到大約1F,與其上方的電容器大致匹配,同時保持足夠的通道長度使晶體管能夠有效運行。目前的DRAM使用的則是具有水平分隔的水平通道和源/漏極。這些是成熟且已熟知的架構。VCT將源(連接到下面的位線)、通道(被閘極及控制閘極的字線包圍)和漏極(連接到上方的電容器)順序堆疊。在製造方面存在權衡,有些步驟變得更容易,有些步驟則更難,但整體而言,VCT的製造更為複雜。


三星的工藝以使用晶圓鍵合而著稱。在一種類似於邏輯的背面供電過程中,單元接入晶體管是在頂部形成位線後製造的,然後翻轉晶圓並與支持晶圓鍵合,使位線現在被埋入。值得注意的是,鍵合基底似乎不需要與VCT的準確對齊,雖然報告中並未解釋周邊CMOS是否會在翻轉的芯片上,還是在新鍵合的基底中。上側被削薄以暴露晶體管的另一端,以便在上面構建存儲電容器。EVG和TEL有利於這種新增加的晶圓鍵合工具需求。


DRAM入門:當前變種

DRAM有許多種類,每種優化針對不同的目標。相關的最新一代型號有DDR5、LPDDR5X、GDDR6X和HBM3/E。它們之間的差異幾乎完全在於周邊電路。記憶體單元在各種類型中是相似的,製造方法也大致相似。讓我們簡要介紹各種DRAM型號及其角色。


DDR5(第5代雙數據速率)提供了最高的記憶體容量,因為它以雙列直插記憶體模組(DIMM)的形式封裝。LPDDR5X(低功耗DDR5,X表示增強版)提供低功耗運行,但需要更短的距離和較低的電容連接到CPU,這限制了容量,因此它用於希望低功耗且佈局限制可容忍的手機和筆記本電腦。


最近,我們在某些AI加速器、蘋果的專業工作站以及一些像Grace這樣的AI CPU中看到了用於LPDDR的更高容量封裝。這些新用途源於對於功率高效數據傳輸和高帶寬的需求追求。


在加速器中,LPDDR已經成為提供便宜容量的“第二層”記憶體的最佳選擇,其成本比昂貴的HBM低(速度也慢)。它在提供最高容量和可靠性特徵上有所不足,但在能量消耗上卻比DDR5 DIMMs少一個量級。LPDDR5X的封裝可達到480GB,這在Nvidia Grace處理器上可用,約為GDDR配置的容量限制的10倍(後者受限於電路板佈局和芯片封裝規則,以滿足消費者遊戲系統中的信號),並且在中型DDR伺服器配置的範圍內。使用超過128GB的R-DIMMS可以實現更大容量的DDR5,儘管由於封裝複雜性和DIMM上的額外寄存器(這是一種緩存芯片),成本較高。


LPDDR5X在功耗方面相對於DDR具有很大的優勢,相對於HBM則在成本上優勢明顯,但每位元的能量消耗無法與HBM競爭,且需要多條通道(連接到CPU),這對於更高容量的電路板佈局造成擠壓。在錯誤修正(ECC)方面的表現較弱,這在大容量時變得更為重要,因為錯誤的可能性會增大。為了彌補,必須分配一些容量來支持額外的ECC。例如,Grace CPU每個計算托盤有512GB的LPDDR5X,但似乎為可靠性特徵保留了32GB,使得可用容量為480GB。


即將到來的LPDDR6標準顯示出很小的改善,保持每個芯片的高通道數量,相對溫和的速度提升,以及對錯誤修正的有限支持。LPDDR6不會提供一個HBM競爭者。


GDDR6X(G代表圖形)專注於圖形應用,提供低成本的高帶寬,但具有更高的延遲和更高的功耗。雖然在遊戲GPU中有用,但其設計有著電路板容量限制和功率水平,限制了可使用的AI應用程序的大小。


然後是HBM3E(高帶寬記憶體第3代,增強版“E”)。它優先考慮帶寬和能效,但價格非常高。HBM的兩個定義特徵是更寬的總線寬度和垂直堆疊的記憶體晶片。每個HBM晶片有256位的I/O,這是LPDDR僅16位的16倍。晶片通常堆疊8層或更多,I/O按每4個晶片分組;總體包裝可提供1024位的帶寬。在HBM4中,這一數字將翻倍至2048位。要充分利用HBM,最佳的方式是將其與計算引擎共同打包,以減少延遲和每位元的能耗。為了擴大容量,同時保持與計算的短連接,必須在堆疊中增加更多的晶片。


HBM的高成本主要源於這一對晶片堆疊的需求。在典型的HBM堆疊中,8個或12個DRAM晶片(路線圖上有16個及以上)相互堆疊,通過每個晶片中的通過矽通孔(TSV)進行功率和信號的路由。TSV是直接穿過芯片的導線,可以實現晶片之間的連接。TSV的密度更高,性能更強,成本也更高,相較於用于連接堆疊晶片的舊焊線方法,每個HBM設計需要經過超過1200個信號導線的路由。必須分配大量的空間來安置這些導線,使每個HBM DRAM晶片的大小是相同容量的標準DDR晶片的兩倍。這也意味著對DRAM晶片的電氣和熱性能有更高的分檔要求。


這種復雜性降低了良率。例如,三星的DRAM設計失誤及其使用的落後1α工藝正在導致其HBM良率驚人地低。封裝是另一個主要挑戰。正確對齊8個以上的晶片,並處理每個晶片上數千個連接非常困難,因此成本較高,因為相對較低的良率。截至目前,這是HBM供應商之間的關鍵區別之一,因為SK海力士能夠成功生產其MR-MUF包裝的HBM3E,而三星則在良率上存在困難。美光有可行的解決方案,但需要大幅提升生產量。


儘管HBM3E面臨高成本和良率挑戰,但在目前,它仍然是記憶體產業有史以來最有價值和高利潤的產品。這主要是因為對於大型AI加速器,沒有其他型號的DRAM是可行的替代方案。雖然隨著三星提升良率和美光提升生產,利潤可能會逐漸下降,但AI加速器對記憶體的需求將繼續增長——在一定程度上抵消這種新供應的優勢。


簡而言之,高帶寬和非常高帶寬密度,以及最佳的每位能量和真正的錯誤更正能力,使得 HBM3E 在當前 AI 加速器中顯得格外出色。這也是為什麼像 Nvidia 的 H100 和 AMD 的 MI300X 會選擇使用它。GDDR6/X 雖然在同樣的指標中排名第二,但容量卻相對小得多。LPDDR5 和 DDR5 的表現更糟,它們都不適合加速器的需求。


目前的 HBM 解決方案成本高昂,且越來越難以擴展。我們怎麼會陷入這種情況呢?


HBM 路線圖  

HBM 是一種圍繞傳統 DRAM 概念所建立的封裝解決方案,但以密度和臨近性為重點,試圖解決 AI 和其他高性能計算形式的帶寬和功率問題。


目前所有主要的 AI GPU 都使用 HBM 作為其記憶體。2025 年的計劃是提供 12-Hi HBM3e,搭載 32 Gb 芯片,每堆疊總計 48 GB,數據傳輸速率達到每條 8 Gbps。在 GPU 伺服器中,支援 CPU 的統一記憶體的第一版已經隨著 AMD 的 MI300A 和 Nvidia 的 Grace Hopper 上市。


Grace CPU 擁有高容量的 LPDDR5X,而 GPU 則擁有高帶寬的 HBM3。然而,這些 CPU 和 GPU 是分開封裝的,透過 NVLink-C2C 以 900 GB/s 連接。這種模型在整合上比較簡單,但在軟體方面則更具挑戰性。連接到另一個晶片的記憶體延遲較高,可能會影響到許多工作負載。因此,記憶體的運作並不完全一致,並且存在自己的一些挑戰。


HBM4 還需要幾年時間才能推出,三星和美光宣稱它將達到每堆疊 16-Hi,傳輸速率為每秒 1.5 TB。這比目前的帶寬高出兩倍以上,而功耗卻僅增加 1.3-1.5 倍,但這樣的擴展仍然不夠,因為記憶體的整體功耗持續上升。HBM4 還將改變為每堆疊 2048 位寬,這會將資料傳輸速率稍微降低到 7.5 Gbps,有助於降低功耗和改善信號完整性。很可能,隨著 HBM4E 或類似技術的推出,資料速率將會提升至 HBM3E 的水準。


另一個重要的變化是在 HBM 基底晶圓上。這個基底晶圓將採用 FinFET 工藝製造,而不是目前使用的平面 CMOS 技術。對於沒有這種邏輯能力的美光和 SK 海力士,基底晶圓將由晶圓廠製造,目前台積電已經宣布會成為 SK 海力士的合作夥伴。此外,基底晶圓還將根據個別客戶的需求進行客製化。


我們會有一份單獨的 HBM 客製化報告,但這裡提供一個快速說明:


HBM4 的公告預測將會使用至少兩種不同形式的基底晶片,讓記憶體介面能夠針對不同的速度和長度進行優化。控制 DRAM 狀態機的功能可能會轉移到基底晶片上,以更有效地控制 DRAM 晶片,而僅有的垂直連接也可能使每比特的能耗降低。


客製化的 HBM 可以啟用多種其他封裝架構,超越我們今天所見的傳統 CoWoS 基組裝。可能會有重複的 PHY 來串聯多排 HBM——不過超過兩個等級後,回報會減少。


隨著HBM4及其後繼產品的推出,業界已經開始提出採用混合鍵合技術。這將使HBM堆疊可以變得更薄,因為不再需要凸塊間隙,並且能夠改善散熱效果。此外,這還能支持16到20層以上的堆疊高度。這可能還會略微降低功耗,因為信號傳遞的物理距離會減少。不過,挑戰是相當大的——想要成功獲得一個由16個以上的芯片組成的鍵合堆疊,並且每個芯片都完美平坦,並不是一件容易的事——目前還沒有人能夠接近一個適合大規模生產的解決方案。


所有初始的HBM4都不會使用混合鍵合,我們預期這一點在可預見的未來會保持不變,可能會比大多數人希望的時間還要長。


CPU、GPU或加速器與記憶體之間的連接是在基礎晶片上改善這一連接是克服記憶體限制的一個可能方向。Eliyan是一家由美光和英特爾等公司資助的新創公司,他們正在藉由自訂的UMI介面帶頭這一方向。


這個UMI介面是與ASIC晶片配合使用的,它作為HBM堆疊的基礎芯片或其他記憶類型的模組控制器。這個芯片包含記憶控制器和與記憶晶片的物理互聯(PHY)。UMI在外部連接到主機GPU,附加到主機的架構上。它採用完整的CMOS製程製造,因此效率高且快速,使用先進的“Nulink”協定連接到主機,並消除了主機矽晶片上的記憶控制器佔用空間。


Eliyan的封裝技術甚至可以與標準基板一起使用,並且其覆蓋範圍遠超過一般的先進封裝。這可能使得HBM不必緊鄰ASIC晶片,甚至可以遠離,這意味著能夠容納更高的容量。他們的方法還使用了更少的面積和邊緣,這樣通道的寬度可以增加。標準化的UMI記憶芯片可能允許HBM、DDR、CXL記憶體等的使用,而不必固定於某一特定類型,顯著增強了靈活性。雖然這種方法可能在短期內提供改善,卻並未解決HBM的根本成本問題。


新興記憶體

隨著DRAM和NAND的持續存在,對於更好替代品的研究一直在進行。這些被總稱為“新興記憶體”。這個名稱實際上有些不準確,因為到目前為止,沒有一種能夠“出現”成為高產量產品。不過,鑑於圍繞AI的新挑戰和激勵,仍然值得進行短暫的討論。


對於離散應用而言,最有前景的記憶體是FeRAM。它不使用電介質(絕緣材料)作為儲存電容器,而是使用鐵電材料(在電場中極化的材料)。這些材料的優點是非揮發性的,即在關閉時能夠存儲數據,並不會浪費電力或時間進行刷新。


美光(Micron)在2023年度IEDM上展示了有前景的結果,密度與他們的D1β DRAM相當,並且具有良好的耐用性和保持性能。換句話說,對於AI/ML的使用來說是一個不錯的候選者,但存在一個問題:成本。它的製造過程復雜,比傳統DRAM使用了更多的特殊材料,導致目前根本沒有競爭力。


MRAM是另一個有前景的研究領域。它不使用電荷來存儲數據,而是通過磁性來進行存儲。大多數設計使用磁隧道接面(MTJ)作為位元存儲單元。


在IEDM 2022上,SK海力士和Kioxia展示了一款具有45nm間距和20nm關鍵尺寸的1-selector MTJ單元。他們共同實現了迄今為止最高的MRAM密度,達到0.49 Gb/mm²,超過了美光的D1β DRAM,它的密度為0.435 Gb/mm²。這款單元甚至採用了4F2的設計。他們的目標是將其產品化,作為DRAM的替代品,以散裝包裝的方式推出市場。


目前,沒有任何替代內存能夠真正挑戰DRAM。部分替代品具有更大的單元或更慢的速度,部分則擁有更昂貴的製程。大多數替代內存的耐久性有限,還有一些產品產量低。實際上,目前發貨的磁性或相變內存產品的容量以MB為單位,而非GB。這種情況可能會改變,因為這裡有大量的資金投入,獲勝的組合可能隱藏在某處,但在設備和生產規模上仍需做大量的工作。


內存計算

DRAM從一開始就受到其架構的限制。它是一個簡單的狀態機,沒有任何控制邏輯,這有助於降低成本,但意味著它依賴主機(CPU)來進行控制。


這一範式已深植於行業:現代DRAM製造工藝已經高度優化和專業化,以至於不現實地生產控制邏輯。行業組織JEDEC(聯合電子設備工程委員會)在制定新標準時,也強制限制邏輯的最小干預。


DRAM晶片完全依賴主機:所有指令都透過共享介面路由到記憶體中的多個銀行,代表主機中的多個執行緒。每個指令需要四個或更多步驟以精確的時序來發出,才能保持DRAM正常運作。DRAM晶片甚至沒有避免衝突的邏輯。


這問題因使用古老的半雙工介面而加劇:DRAM晶片可以讀取或寫入數據,但無法同時進行。主機必須準確預測在每個時鐘週期中介面應該設置為讀取還是寫入。指令和數據分別在不同的線路上傳輸,雖然減少了時序複雜性,但增加了線路數量以及在GPU或CPU上的「海濱密度」擁擠問題。總的來說,記憶體介面的性能在比特率、密度和效率上,遠遠低於邏輯晶片所用的其他PHY技術。


這些劣勢的結果是,DDR5 DIMM(伺服器上最常見的型號)在主機控制器和介面中花費的讀取或寫入能量超過99%。其他變體的表現稍微好一些——HBM的能量使用大約是95%用於介面,5%用於記憶體單元的讀寫——但仍然遠未達到DRAM的全部潛力。


功能性簡直放錯了地方。理所當然的解決方案是將其移至正確的位置:控制邏輯應該與記憶體共同集成在晶片上。這就是內存計算(CIM)。


內存計算:釋放銀行的潛力  

DRAM銀行擁有驚人的性能潛力,但因為介面幾乎完全浪費掉了。


銀行是DRAM結構的基本單位。每個銀行由8個子銀行組成,每個子銀行有64Mb(8k行 x 8k位)的記憶體。銀行一次激活並刷新1行8k位,但在任何I/O操作中僅轉移256位。這個限制是由於來自感測放大器的外部連接:雖然每行有8k個感測放大器支持,但只有32個感測放大器中的1個(256)連接到子銀行的外部,這意味著讀取或寫入操作僅限於256位。


感測放大器位於一個被高電容器環繞的峽谷中。在ETH蘇黎世的FIB拆解圖中,可以看到有高層的布線,這需要高通孔延伸下來與感測放大器接觸。


即使有這麼有限的接口,任何時候能夠訪問的只有1/32,銀行的峰值讀寫容量大約是256Gb/s,平均接近128 Gb/s,因為至少有50%的時間用於切換到一個新的活動行。每個16Gb晶片有32個銀行,因此一個晶片的全部潛力是4TB/s。


在更高的層級上,銀行以銀行組的形式連接,進而連接到出自DRAM晶片的接口。在HBM中,每個晶片有256條數據線,每個晶片的峰值吞吐量是256 GB/s。這個瓶頸只能利用銀行潛能的1/16。


為了加重傷口,從晶片中傳輸單一位元所需的能量為2pJ,這是進出儲存單元所需能量的20倍。大部分的能量耗用發生在DQ(資料問號,既用於讀取又用於寫入的數據線)線的兩個端口接口上,以及主機上的控制邏輯中。


在這樣浪費的架構下,必然會有努力去挖掘更多潛在的性能。


記憶體運算:DRAM的全部潛力

即使是簡單的理論實例也顯示出這裡有巨大的潛力。實施UCIe(通用晶片聯接)標準將使每毫米邊緣的吞吐量達到11 Tbps,幾乎比HBM3E好12倍。每位元的能量將下降一個數量級,從2pJ降至0.25pJ。而UCIe甚至還不是最新的解決方案……以Eliyan的專有Nulink標準為例,聲稱能帶來更大的改進。


這裡的警告是,如果主機的布料跨越接口,那麼必須在DRAM端處理一部分布料命令集。每個記憶體銀行都需要在本地實現狀態機(預充電、地址選擇、激活、讀取/寫入、關閉等)。這需要在DRAM上晶片內製造相對複雜的邏輯。


內存計算:前進的道路與可能的獲勝者

在DRAM晶片上加入邏輯,當然不是一件簡單的任務。不過,好消息是HBM包含CMOS基本晶片,當3D DRAM到來時,幾乎可以確定的是,在記憶體堆疊的上面或下面會有優質的CMOS邏輯相連。換句話說,這種架構適合在內存中包含一些計算,晶片製造商也會被激勵這樣做。


這裡有一些易於實現的機會:想想如果HBM採用每條數據線32Gbps的GDDR7速率,會有什麼樣的成果。GDDR7展示了在DRAM晶片上可以製造足夠快的晶體管,通過TSV到基本堆疊的垂直距離不到1mm,這應該能保持每位能量在0.25pJ/位的範圍內。這引發了問題:為什麼JEDEC不向這裡改進的標準靠攏呢?


基本晶片上的外部接口可以大幅升級為現代設計,每毫米邊緣提供超過一TB/秒,並且每位的能量消耗為小數pJ。某些人在IP戰爭中將會獲得巨大勝利。雖然JEDEC有可能會採納一個選擇作為標準,但更可能是由於更快的記憶體/GPU供應商聯盟所推動,因為JEDEC通常需要數年時間。


我們已經看到在HBM4中通過接受第三方基底晶片而可能實現的真正變化,這必然會釋放出實驗的潛力。我們可能會看到卸載的通道控制、純粹的連接上的組織擴展、在幾公分距離的每比特能耗減少,還有與更遠的HBM行的連接,或是與像LPDDR銀行一樣的第二層記憶體串聯。


這樣設計可以繞過在記憶體堆疊內進行計算的功率限制,而是利用基底晶片上的現代化介面,讓相鄰的晶片獲得帶寬和每比特低能耗的計算,就像是在記憶體中一樣。


參考資料:

https://www.semianalysis.com/p/the-memory-wall?r=3nu5j8&triedRedirect=true



留言
avatar-img
分析師的市場觀點
383會員
1.8K內容數
現職全台最大銀行擔任AI/科技股供應鏈投資分析師。 很高興能夠成為你實踐財富自由的第一步,歡迎瀏覽進階訂閱方案 原價每天不到5元,CP值最高,超越報紙資訊的法人投行分析。 精簡快速分享投行法人研究及操盤思維 希望能讓你我用最少時間、精力、資金洞察近期金融市場的變化與重點分享。
2025/04/29
摘要 儘管投資者因宏觀經濟和供應鏈風險而情緒惡化,但GPU的核心需求因全球LLM(大型語言模型)推理晶片短缺而激增。Blackwell晶片供應受限,但需求強勁,尤其是GB200/300型號,且推理需求的爆發性增長(部分數據顯示代幣生成量年增5倍)推動了投資熱潮。摩根士丹利認為,這種需求來自實際應用
Thumbnail
2025/04/29
摘要 儘管投資者因宏觀經濟和供應鏈風險而情緒惡化,但GPU的核心需求因全球LLM(大型語言模型)推理晶片短缺而激增。Blackwell晶片供應受限,但需求強勁,尤其是GB200/300型號,且推理需求的爆發性增長(部分數據顯示代幣生成量年增5倍)推動了投資熱潮。摩根士丹利認為,這種需求來自實際應用
Thumbnail
2025/04/29
景碩(3189.TW):1Q25 初步財報摘要 - 會計政策調整,EPS 符合預期 1Q25 財報概覽景碩1Q25核心業務(營業利益)低於高盛預期10%,低於彭博共識26%,主因ABF新廠(K6廠)獲利能力低於預期(1Q25虧損)。公司1Q25毛利率較高盛/彭博共識低6.9/7.6個百分點,且
Thumbnail
2025/04/29
景碩(3189.TW):1Q25 初步財報摘要 - 會計政策調整,EPS 符合預期 1Q25 財報概覽景碩1Q25核心業務(營業利益)低於高盛預期10%,低於彭博共識26%,主因ABF新廠(K6廠)獲利能力低於預期(1Q25虧損)。公司1Q25毛利率較高盛/彭博共識低6.9/7.6個百分點,且
Thumbnail
2025/04/29
摘要 報告指出,南亞電路板(8046.TW)第一季營收達84.58億新台幣(季增7%),超出預期,主要受益於ABF載板(用於800G)和BT載板(用於記憶體)需求強勁,帶動毛利率提升至5.0%。第二季因關稅暫停刺激需求,營收預計季增10%,但下半年可能放緩。報告上調目標價至73新台幣,但維持「減持
Thumbnail
2025/04/29
摘要 報告指出,南亞電路板(8046.TW)第一季營收達84.58億新台幣(季增7%),超出預期,主要受益於ABF載板(用於800G)和BT載板(用於記憶體)需求強勁,帶動毛利率提升至5.0%。第二季因關稅暫停刺激需求,營收預計季增10%,但下半年可能放緩。報告上調目標價至73新台幣,但維持「減持
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
華碩 K3605ZC-0232K12700H 16寸 Intel® Core™ i7-12700H Processor 2.3 GHz 8GB DDR4 on board +8GB DDR4 SO-DIMM 螢幕:16吋 FHD IPS 512GB M.2 NVMe™ PCIe® 4.0
Thumbnail
華碩 K3605ZC-0232K12700H 16寸 Intel® Core™ i7-12700H Processor 2.3 GHz 8GB DDR4 on board +8GB DDR4 SO-DIMM 螢幕:16吋 FHD IPS 512GB M.2 NVMe™ PCIe® 4.0
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
瞭解IC和IP的區別、晶圓代工的角色,以及芯粒和小晶片對半導體製造的影響。此外,探討了人工智慧對電子設計的影響。
Thumbnail
瞭解IC和IP的區別、晶圓代工的角色,以及芯粒和小晶片對半導體製造的影響。此外,探討了人工智慧對電子設計的影響。
Thumbnail
摘要 過去十年,DRAM 的發展遇到了瓶頸,密度提升緩慢,成本降低有限,嚴重阻礙了需要大量記憶體資源的 AI 計算發展。為了克服這個「記憶體牆」問題,短期內可以通過 4F2 單元佈局、垂直通道電晶體 (VCT) 和 HBM 等技術改進現有 DRAM 效能。長期來看,開發嵌入式運算記憶體 (CIM)
Thumbnail
摘要 過去十年,DRAM 的發展遇到了瓶頸,密度提升緩慢,成本降低有限,嚴重阻礙了需要大量記憶體資源的 AI 計算發展。為了克服這個「記憶體牆」問題,短期內可以通過 4F2 單元佈局、垂直通道電晶體 (VCT) 和 HBM 等技術改進現有 DRAM 效能。長期來看,開發嵌入式運算記憶體 (CIM)
Thumbnail
隨著近年來的AI浪潮,讓大家普遍對於AI後續的發展充滿了期待。今年所舉辦的台北電腦展 (Computex),讓這樣的相關的討論更加熱烈。有在投資的讀者們或多或少都會看到相關產業鏈的梳理,像是AI伺服器需要什麼奈米的晶圓製程、需要那些先進封裝測試技術、需要什麼樣的水冷技術、哪些的OEM廠 (O
Thumbnail
隨著近年來的AI浪潮,讓大家普遍對於AI後續的發展充滿了期待。今年所舉辦的台北電腦展 (Computex),讓這樣的相關的討論更加熱烈。有在投資的讀者們或多或少都會看到相關產業鏈的梳理,像是AI伺服器需要什麼奈米的晶圓製程、需要那些先進封裝測試技術、需要什麼樣的水冷技術、哪些的OEM廠 (O
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
*從Embedded World看到,AI在工業領域的發展,會比原本預期再慢一點。 *目前在消費端、服務端,例如顧問業者、客服、buy now pay later等業務,有很多AI功能、LLM模型導入。 --初階的碼農容易被AI取代。 *工業端,最早是PLC編程,到IPC,未來在IPC裡面 會
Thumbnail
*從Embedded World看到,AI在工業領域的發展,會比原本預期再慢一點。 *目前在消費端、服務端,例如顧問業者、客服、buy now pay later等業務,有很多AI功能、LLM模型導入。 --初階的碼農容易被AI取代。 *工業端,最早是PLC編程,到IPC,未來在IPC裡面 會
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News