日前,OpenAI發布視頻生成模型Sora,引起了全球範圍內的廣泛關注和討論。從深度學習嶄露頭角到大模型浪潮席捲科技圈,AI發展的進程中經歷了許多里程碑式事件。其中,Transformer架構可以説是大模型領域的“統治者”。對於AI大模型而言,Transformer架構發揮了怎樣的作用?如何應對支撐大模型的算力基礎設施在計算、存儲、互連等方面的挑戰?哪種大模型新架構有可能成為Transformer的替代者?近日,針對業界關注的熱點問題,記者採訪了北京航空航天大學計算機系主任肖利民教授。
四大優勢讓Transformer架構席捲AI領域
自2017年提出以來,Transformer憑藉其卓越的語言理解能力超越遞歸神經網絡(RNN)模型,迅速在自然語言處理(NLP)領域嶄露頭角,後來又進軍圖像領域,打破了卷積神經網絡(CNN)的統治地位。Transformer強大的&&能力、並行計算能力、跨領域應用能力等為AI大模型的突破性進展奠定了基礎。
肖利民解釋説,Transformer架構是一種基於自注意力機制的神經網絡模型,解決了傳統RNN模型在處理長序列數據時存在的計算效率問題和難以並行化等問題。他進一步闡述了Transformer架構在AI大模型中的四個主要作用和優勢。
一是Transformer通過自注意力機制來捕捉輸入序列中的全局依賴關係,解決了傳統神經網絡模型在處理長序列數據時存在的問題。這種機制可以讓模型動態地關注輸入序列中的不同部分,提高了模型對上下文信息的準確處理能力。
二是Transformer通過引入殘差連接和層歸一化等技術,提高了模型的訓練效率和穩定性。相比傳統的RNN和CNN模型,Transformer在處理長序列數據時更加高效和穩定。
三是Transformer架構的自注意力和多頭注意力機制、層次化結構以及可擴展性使其成為一種易於規模化和並行化的模型,非常適於大規模分佈式計算。
四是Transformer架構在自然語言處理領域得到了廣泛應用,如機器翻譯、文本分類和生成等。同時,隨着對Transformer架構的深入研究和改進,它還逐漸被應用於圖像處理、音頻處理、推薦系統等其他領域。
大模型“暴力美學”帶來的挑戰值得關注
算力基礎設施是支撐大模型的算力底座,在大算力的加持下,當訓練數據量、模型參數規模、訓練充分程度達到一定水平時,大模型在某些類型任務上的某些能力得以“智能涌現”,這是AI大模型的“暴力美學”。大模型的參數規模動輒幾千億甚至上萬億,大規模分佈式訓練複雜度高,對算力基礎設施提出了大算力、大內存、高訪存帶寬、高速互連等新的需求和挑戰。
肖利民&&,應重視算力基礎設施中的多層次軟硬體高效協同。通過分析大模型負載特徵與智算系統結構的適配,優化大模型負載切分與並行化策略,並通過模型、框架、智算系統等多層次縱向協同以及計算、存儲、互連等軟硬體資源橫向協同,實現大模型的高效訓練和推理。此外,利用多種類型算力芯片實現混合計算也是應對算力稀缺的一種有益嘗試,通過聚合不同類型的算力芯片資源,形成多元異構算力資源池,並通過異構編程、即時編譯、資源感知、負載切分和動態調度等技術,用於支撐同一模型訓練任務,以最大化利用各類算力資源。
同時,肖利民認為,還可重點從計算、存儲、互連、軟體棧等算力基礎設施的各個關鍵環節探尋提升大模型訓練和推理效能的技術途徑。
一是在計算方面,算力芯片的研製或選型至關重要,既要考慮大模型主流架構正趨向集中於Transformer的現狀,也要考慮未來大模型架構可能的演進,“通用+定制化”的芯片架構不失為一種兩者得兼的思路,例如在通用GPU架構中針對Transformer做定制化加速,兼顧大模型對芯片適應性和高能效的需求。此外,也可探索“存算一體”等新型芯片架構,將計算與存儲單元融合集成於同一芯片中,大幅降低數據在處理器與存儲器間搬運的延遲和能耗。
二是在存儲方面,可通過HBM技術提供大容量存儲和高帶寬訪存能力,或通過CXL技術實現大內存池化共享,更好承載大模型的訓練樣本、權重參數、優化器狀態等海量數據,提升大模型訓練場景下訪存性能和存儲利用效率。
三是在互連方面,可通過NVLink、HCCS等片間高速互連機制、GPU節點間RDMA直通互連、GPU Direct RDMA加速顯存間數據交換,以及AllReduce、AlltoAll等集合通信函數優化,降低大模型訓練的數據交互開銷。
四是在軟體棧方面,應重點突破大模型負載自動切分與並行化工具、大模型分佈式訓練的彈性容錯機制、模型負載與芯片結構優化適配的算子庫、多元異構算力的統一納管和高效調度系統、跨芯片架構和自適應優化的編程語言和編譯工具鏈等技術,建立全棧軟體環境,高效橋接上層大模型應用與底層硬體資源。
探尋Transformer架構的優化之路
當前,幾乎所有的AI大模型都是以Transformer架構為基礎單元堆疊構成,從BERT、GPT系列、Flan-T5等語言模型到SAM、Stable Diffusion等圖像模型,Transformer正以銳不可當之勢席捲AI大模型世界。
當然,Transformer也有自身固有的一些不足。肖利民解釋道,目前的AI模型已能處理更長的序列和更高維度的表徵,從而支持更長的上下文和更高的質量,然而,當前Transformer架構的時間和空間複雜性在序列長度和/或模型維度上呈二次增長模式,這不僅會限制上下文長度,還會增加擴展成本。為解決這些問題,人們正在不斷探索優化算法和改進網絡結構等手段,以期提高Transformer的性能並打破其局限性。
近期,斯坦福大學和紐約州立大學布法羅分校的研究團隊提出了一種新的替代技術:Monarch Mixer,摒棄了Transformer中高成本的注意力和MLP機制,代之以富有表現力且計算複雜度為次二次元的Monarch矩陣。在語言和圖像實驗中,Monarch Mixer以更低的計算成本取得了更優的表現。
更早之前,斯坦福大學Chris Re實驗室在其名為S4的研究中提出了一系列亞二次替代架構,這些架構在特定情境下能夠與Transformer架構的性能相媲美,同時可顯著降低計算量。
肖利民&&,以Transformer為基礎的大模型還存在着一個眾所周知的不足——由於訓練集不平衡導致的偏見問題。針對這一問題,斯坦福大學另一研究團隊提出了一種新型神經網絡架構Backpack,通過調控意義向量來干預語言模型的行為,從而引導語言模型輸出符合預期的結果。
此外,還有其他多個研究團隊出於提高計算效率等目的,提出了若干Transformer替代架構,比如微軟的RetNet,騰訊與香港中文大學聯合發布的UniRepLKNet,以及OgetherAI的StripedHyena等。
肖利民認為,目前人們正在探索的一些Transformer替代架構,將會為AI大模型發展帶來多重潛在的益處。首先是計算複雜度的降低,使得同等目標性能下模型的參數規模更小,進而減少對算力的需求。或者在相同的參數規模和算力支持下能夠讓模型的性能更優。
值得一提的是,如果替代架構的低參數、高性能特性達到一定程度,亦可降低大模型在低算力設備上的部署門檻,從而進一步拓展大模型的應用範圍和場景。此外,有些替代架構還能有效消除模型偏見問題,使得模型更可控和更可解釋,使得用戶能夠通過適當的干預引導模型輸出想要的結果。
雖然當前已經出現了不少Transformer的潛在替代架構,未來肯定還會出現更多的Transformer競爭者或最終出現替代者,但預計在較長一個時期內,Transformer依然會是大模型領域的主流架構。(記者 吳雙)