存算一體芯片為何興起

2025-01-21 09:24:12 來源: 《環球》雜誌

 

我國科學家研製出首個全模擬光電智能計算芯片

文/陳經

編輯/黃紅華

  從最初的機械計算機到如今的超級計算機,計算機技術發展已經發生了翻天覆地的變化。即便如此,在面對現代複雜的應用需求時,計算機也開始顯露出“力不從心”。

  由於傳統的計算機架構的數據存儲和計算是分開的,數據在存儲器和處理器之間的頻繁傳輸導致了延遲,這在某種程度上抑制了計算效率的提高。在這種情況下,將存儲和計算功能融為一體的存算一體芯片應運而生。

新技術助推新需求

  計算機技術誕生之初,其體系主要依賴馮·諾依曼架構,在這一架構中,CPU(中央處理器)是核心,內存是輔助。

  之後相當長一段時間內,計算機系統面對的主要任務,是許多“科學計算”任務,當時業界研究的重點是設計各種精巧的“算法”,加快處理速度,更快輸出正確答案。

  但到上世紀90年代,有些計算任務如圖形顯示等已經讓CPU難於招架。於是業界開發了GPU(圖形處理器)去並行計算顯示器上的畫面,將寶貴的CPU資源留給操作系統。CPU仍處於計算體系的中心地位,處理用戶界面交互、程序算法等眾多任務,GPU起輔助作用。

  隨着計算機體系與應用不斷創新,人們對存儲和計算性能的要求越來越高,同時還要控制功耗,防止超過限度導致元器件失靈。當前,以大數據、人工智能為代表的新興技術不斷發展成熟,在一些計算任務中,GPU逐漸成為體系核心,而CPU成了輔助。新任務、新要求需要新體系,這也讓計算機體系結構出現重大變革契機。

  大數據與人工智能相關的新型計算任務往往有三大特徵:海量的數據、極多的神經網絡計算、巨大的功耗。以近年來流行的大模型訓練為例,光是文字訓練數據就多達數萬G的存儲量,需要許多硬盤才裝得下;神經網絡權重系數上萬億個,往往需要分散在多個硬體內存中;訓練耗能極多,電網能力不足無法訓練,IT巨頭甚至需要自建電網。

  CPU對這樣的計算任務無能為力,只能淪為配角。由於CPU負責數據搬運、邏輯分支、結果輸出等串聯輔助任務,主要的計算任務改由海量的GPU陣列完成,每個GPU內部還有成千上萬個處理器核心並行計算。

  因此,數據與GPU在計算體系的地位上升,例如,一幅圖像輸入描述具體的問題,海量類似的圖像“樣例”概括描述問題特性,而訓練出來的神經網絡權重數據,讓GPU的計算結果很好地輸出問題答案。

兩堵“墻”的阻礙

  如果説原來的計算任務瓶頸是CPU能力不足,那麼現在的瓶頸變成海量數據的搬運問題。現在流行的計算機架構中,CPU與GPU處理器核心眾多,理論上計算能力十分強大,但需要給處理器準備好數據。而海量數據造成了“存儲墻”“功耗墻”現象。

  “存儲墻”,是指內存與CPU、GPU處理器之間通過總線搬運數據,而這是慢速的。處理器算得快,但因為要等待內存數據搬運,因此大量時間處於空閒狀態,有時耗時是運算時間的上百倍。比如,處理海量神經網絡參數時,需要從內存中先讀取,再進行計算。參數規模影響了過程效率,導致主要時間花在從內存搬運數據上,GPU算力利用率非常低(有時不足10%)。

  “功耗墻”,是指海量數據需要持續搬運與計算,雖然CPU與GPU理論上能算得過來,但持續工作容易發熱聚集,導致硬體溫度不斷上升,有可能突破界限讓元器件在高溫中失靈,從而影響計算性能。就像一挺重機槍,不停射擊使槍管通紅髮熱,時間一長就沒法繼續。

  從CPU到GPU,主體思路還停留在“正面硬剛”數據搬運和功耗問題上。儘管人們極盡巧思,用各種辦法提升數據搬運速度,以及散熱、降溫,但並不能緩解“存儲墻”“功耗墻”問題。

存算一體技術應運而生

  為了打破馮·諾依曼計算架構瓶頸,降低“存儲-內存-處理單元”過程數據搬移帶來的成本,學術界嘗試了多種方法。近年來,有不少存算一體技術,已經在計算機産業中廣泛應用,如“近存計算”(PNM)。

  “近存計算”主要有兩種應用:一種由三星、海力士等存儲器生産商主導,在內存、SSD(固態硬盤)等存儲産品中嵌入定制的計算單元或通用處理器,直接訪問計算結果,但計算不能太複雜;另一種是基於先進封裝、芯片堆疊等芯片連接技術,由CPU、GPU設計公司(如英偉達、AMD等)主導,將HBM(高帶寬內存)圍繞GPU裸芯片封裝在一起,讓處理器以高帶寬快速訪問數據。目前,這個領域非常活躍,是先進芯片産業前沿,成功應用於人工智能、大數據、邊緣計算,在多種計算密集型應用中體現出靈活與高效。

  “近存計算”與傳統的CPU和GPU架構有所不同,但它仍然是馮·諾依曼架構,屬於在傳統框架中想辦法,是芯片製造與連接封裝技術進步,是改良優化傳統架構,並非革命。近存計算中,計算與存儲還是分離的,雖然比以前“近”多了。

  還有一種叫“存內處理”(PIM),出現更早一些,現在也算是近存計算的一類。在DRAM(動態隨機存取存儲器)或者HBM存儲芯片設計時,就在其中內置計算單元,與芯片製造同步進行。在電路中,計算與存儲雖然很近,但仍然是分離的,還是傳統架構。

  值得一提的是,真正突破了馮·諾依曼架構的是“存內計算”(IMC)。如清華大學集成電路學院教授吳華強團隊研製的以核心元器件為“憶阻器”的新型芯片,就是“存內計算”技術的代表。

  “存內計算”又分為IM-A(In-Memory Array)與IM-P(In-Memory Periphery)兩種不同的計算方法。

  IM-A是指在元器件內存陣列內部計算,這些計算有特殊的物理原理,直接生成計算結果。這種方法有很好的計算速度和能源效率,因為是光學、電流等物理效應的直接結果。但是結構不夠靈活,需要重新設計陣列、修改外圍電路。

  IM-P是指在外圍電路中處理産生計算結果。例如清華大學戴琼海院士與喬飛副研究員團隊2023年10月在《自然》雜誌發表的光電融合芯片,計算速度非常快、能耗非常低。這個芯片中,光線輸入經過透鏡組,透鏡間的掩碼板就相當於新型內存元器件,存儲了神經網絡權重。而光學模擬運算,生成包含關鍵信息的少量光學信號,被轉換成少量電信號。這些電信號脈衝,在SRAM(靜態隨機存取存儲器)陣列組成的簡單外圍電路中傳播,以模擬的形式輸出正確數值。

  總之,相比於傳統芯片,存算一體芯片優勢明顯。一些高端的存算一體芯片算力達到了驚人的1000TOPS(處理器運算能力單位)以上,這在傳統的馮·諾依曼架構下是難以想象的。在能效方面,存算一體芯片也表現出色。其能效高達10-100TOPS/W(每瓦功率的算力),這不僅超越了傳統ASIC(專用集成芯片)芯片,還為未來的綠色和節能計算提供了可能。

  由於存算一體芯片在結構上的優化,其成本效益顯著,能為企業和研究機構提供更加經濟的計算解決方案。隨着技術的不斷發展和成熟,存算一體芯片將會逐漸走入商業化的軌道。

  (作者係風雲學會副會長、亞洲視覺科技研發總監)

手機版