從計算量和參數規模的角度來説,GPT存在巨大浪費。我們可以通過新的框架和計算方法來避免這種浪費
MyScale拓展了結構化查詢語言,在同一個系統中支持海量結構化、向量、文本、JSON數據交換格式、空間、時序等各類異構數據的高效存儲和聯合查詢,數據密度、插入速度、查詢效率優於國內外其他系統
“憶立方”模型通過將知識分層處理,並引入內置數據庫,來提高知識寫入和讀取的效率
文 |《瞭望》新聞周刊記者 扈永順
最近十幾年,以深度學習為代表的AI技術取得了巨大進展。大語言模型的成功,仿佛使人類站在了智能化時代的起點。但以GPT為代表的大模型技術路線並不適合我國國情。
什麼才是適合我國國情的AI發展路徑?如何才能保證我國AI長期穩定地發展?近日,中國科學院院士、北京大學國際機器學習研究中心主任鄂維南接受《瞭望》新聞周刊記者專訪時&&,單純堆砌大模型並非長久之計,我們應在以下兩方面盡快布局:一是建立起一個完整的AI底層創新體系和創新團隊,在模型架構、AI系統、數據處理工具、高效訓練芯片等方向謀求新突破。二是探索AI的基本原理,儘管我們與掌握AI的基本原理還有很大差距,但是我們已經具備了探索這些基本原理的條件。而長期穩定發展的技術路線,必然會在這個探索過程中産生出來。
多年來,鄂維南帶領團隊積極探索適合中國國情的AI發展路徑,尤其是在中國AI for Science的發展中起到了引領作用。
在網龍網絡公司的中國福建VR體驗中心,兩名參觀者在體驗VR“智慧教室”(2024年7月18日攝) 魏培全攝/本刊
堆砌大模型之路不適合我國
《瞭望》:目前世界上主流的AI發展技術框架和思維模式是什麼?
鄂維南:自2012年起,AI領域取得了顯著的成就:2016年,基於深度強化學習的AI方法,DeepMind的AlphaGo在圍棋比賽中戰勝了世界冠軍李世石,這是AI首次在圍棋這一複雜游戲中擊敗人類頂尖選手。2023年,OpenAI發布了ChatGPT,這是一個強大的語言模型,它在自然語言理解和生成方面達到了前所未有的水平。今年,DeepMind推出了AlphaGeometry,這是一個能夠在數學競賽中表現出色的AI系統,展示了在解決複雜幾何問題方面取得的突破。今年另一個值得關注的AI進展是Sora,它能夠通過簡單的文本提示生成逼真的視頻,這標誌着物理世界與虛擬世界之間的橋梁已經開始建立。此外,在科學領域,AI方法解決了蛋白結構這樣一個生命科學中的基礎問題,這是許多人未曾預料到的成就。
AI取得進步的一個重要原因就是深度神經網絡的廣泛應用。儘管深度學習受到熱捧之前人們就已經在處理和分析大數據,但是真正讓大數據充分發揮作用的方法是深度學習,其標誌性事件是辛頓團隊於2012年贏得ImageNet圖像識別比賽冠軍。辛頓等人設計並訓練了一個神經網絡,取名AlexNet。AlexNet有5層卷積網絡、3層全連接網絡,6000多萬個參數。需要強調的是,辛頓等人在訓練AlexNet的時候用的主要算法,如隨機梯度下降、反向傳播等都是已知的。辛頓團隊的工作就是充分訓練了這樣一個多層神經網絡。
辛頓等人的工作不僅改變了圖像識別,而且改變了整個AI領域,因為基於神經網絡的深度學習方法是一個通用方法。神經網絡其實就是一類函數,它與多項式這類函數的不同之處在於它似乎是逼近多變量函數的有效工具。也就是説,它能夠有效地幫助我們克服維數災難和組合爆炸引起的困難,這是過去的AI方法難以做到的。因此神經網絡也可以被用來解決科學領域碰到的多個自由度的問題,如蛋白結構問題、分子動力學勢能函數問題等,由此催生出了一個嶄新的科研範式:AI for Science。正因為深度學習在多變量函數逼近這樣一個非常基礎性的問題上帶來了巨大突破,所以它在各種各樣的問題上都給我們帶來了新的可能。
大模型技術是一個新的突破。之前的深度學習技術考慮的是單個任務和單個數據集,大模型考慮的是所有任務和所有數據。以OpenAI的GPT為代表的大模型技術在文本任務和文本數據上展示了令人驚奇的成功。但總體來説,大模型技術還遠沒有成熟。
《瞭望》:為什麼説這一主流的AI發展模式不適合我國?
鄂維南:從長遠的角度來看,目前以GPT為代表的技術路徑並不適合我國國情。
首先,我國的算力與美國的相比有相當大的差距。目前國內大模型第一梯隊的算力資源基本上是萬卡規模,比如擁有1萬張英偉達A100或類似級別的GPU卡。然而美國的第一梯隊能達到10萬卡甚至更大規模,10萬張卡的價值大約是200億到300億元人民幣,這對許多團隊來説是一個巨大的成本負擔,許多開發基座模型的國內團隊可能不得不停下追趕的腳步。
其次,從計算量和參數規模的角度來説,GPT存在巨大浪費。我們可以通過新的框架和計算方法來避免這種浪費。
最後,對圖像等問題,GPT不一定是最佳技術路徑,我們還需要尋求更加有效的技術方案。
工作人員在2024世界人工智能大會上展示手勢控制機器人操作流程(2024年7月4日攝) 黃曉勇攝/本刊
建立完整的AI底層創新體系
《瞭望》:發展新一代AI,需要解決哪些問題?
鄂維南:要尋找替代路線,並保證我國AI得到持續、穩定的發展,就必須研究AI的底層邏輯,探索其基本原理,解決算力、數據、算法中的一些核心問題。另外,我們還需要探索數據以外的其他思路,包括邏輯推理、幾何&&和物理規律的應用。
從算力角度看,我國已經建設了一些算力中心,比如萬卡規模的機房。我們還需要持續投入,儘管需要尋求新的人工智能技術路徑,但是在算力上的投入不能放鬆。未來我們可能需要考慮如何把分佈在全國各地的算力資源有效地綜合利用起來,以支撐基座模型的訓練。要做到這一點,還需要從模型的層面、算法的層面做一些改變,尋找更加適合於分佈式算力和遠程通信的模型框架。
從數據角度看,我們需要一套高效率、標準化的數據處理工具。處理好數據是提升模型能力的主要手段。現在我們缺乏高效率的數據處理工具。除數據清洗和標注工具以外,還需要對數據做不同維度的畫像的工具,評估數據質量、數據難度的工具等。
從算法和模型的角度來看,我們要給模型瘦身。目前的主流技術框架是把知識和推理能力都放在大模型裏面。其實一些具體知識沒必要放在模型裏面。我們可以把它們存到一個知識庫裏面,讓大模型隨時調用。這樣做就會大大降低模型規模。對不常用的知識,業界流行的外挂數據庫就可以實現這一技術方案。對經常用的知識,我們需要更加高效的方法,這就是我們推出的“憶立方”模型要解決的問題。
我們還需要提高學習效率。目前大模型是純粹通過刷題的方式來學習。例如為了做加減乘除運算,GPT即便是學了1萬道題目,它也並沒有真正學到加減乘除的規則。這樣的算法不夠有效,是在拼蠻力。
要解決這個問題,我們需要把規則和大模型的學習能力結合在一起。一個例子是DeepMind推出的AlphaGeometry,它求解國際奧林匹克數學競賽中平面幾何題目的能力接近了人類最高水平。它的主要做法是把邏輯推理方法和經驗方法相結合:定理庫和樹搜索提供具體證明,而機器學習模型提供思路,比如如何加輔助線。簡單來説,定理庫裏面就是很多平面幾何的定理。一般平面幾何最難的地方是如何加輔助線。這要靠經驗,靠積累,這是大模型擅長的。下一步它就到定理庫裏面去找哪個定理可以用,用了以後能夠把問題簡化。這種方法不僅僅是對平面幾何,在更廣泛的場景都可以用。
《瞭望》:你帶領團隊在建立AI底層創新體系方面,已經做了哪些工作?
鄂維南:我們希望能夠全方位探索AI基本原理並且在此基礎上尋找下一代AI系統的技術路線。目前我們的努力主要集中在數據和模型兩個方面。
在數據處理方面,我們團隊研發了國際上第一個專門為大規模結構化+非結構化數據處理打造的AI數據庫MyScale(此前稱為MQDB),這也是目前國內綜合性能最好、功能最強的AI數據庫。
MyScale拓展了結構化查詢語言,在同一個系統中支持海量結構化、向量、文本、JSON數據交換格式、空間、時序等各類異構數據的高效存儲和聯合查詢,數據密度、插入速度、查詢效率優於國內外其他系統。
比如,MyScale能夠實現海量非結構化數據清洗,減少數據收集量、數據標注,提高效率,降低成本。假設我們要訓練一個自動駕駛模型,我們就要處理各種不同的複雜場景。因此我們需要高效率、高精度地抽取相應場景的數據。我們可以在MyScale數據庫中直接搜索“行人過馬路”或“人行道上的行人或自行車”等場景來獲取相應的數據,方便快捷。近期我們已將MyScale進行了開源,大部分功能已經在開源版本中推出,完全可以滿足用戶數據量不太大時候的需求,歡迎大家去使用。
在模型算法方面,我們團隊打造了“憶立方”模型,它通過將知識分層處理,並引入內置數據庫,來提高知識寫入和讀取的效率。根據一個知識的使用頻率,來決定它的處理方式。使用頻率最高的知識,我們把它放在大模型中,最低的放在外挂數據庫中,常用的專業知識則放在內置數據庫中。這樣不但可以大大降低對模型規模的要求,同時也提高了知識的使用效率。
加快創新人才、創新生態培育
《瞭望》:建立完整的AI底層創新體系,還需要怎麼做?
鄂維南:建立完整的AI底層創新體系,需要探索AI發展的底層邏輯和基本原理,這是AI長期發展的基礎。沒有對基本原理的理解,我們無法保證AI的持續進步,無法知道下一步該如何走。從AI發展的歷史上看,它經歷了幾次大起大落,以及不斷的小起小落。這種情況的出現,實際上也是因為我們對基本原理和底層邏輯的理解不夠深入。
探索AI的基本原理是一個非常困難的任務,這一探索需要多方面人才、多方面資源的緊密合作和結合。
在人才培養方面,目前我們的主要精力都集中在離AI應用最近的人才身上,如機器學習、計算機視覺、自然語言處理等。但AI的長期穩定發展需要多方面、多層次的人才。建議從整個計算産業的角度全面布局AI發展藍圖,創新人才培養方式,培養綜合性、前瞻性人才,建設高質量、多層次人才梯隊。
現在很多高校都成立了AI學院,這既是好事,但也可能成為一件壞事。應該認識到,AI是一個非常特殊的學科,它不只是一個典型的專業,還是一個需要從全校層面進行規劃和布局的核心領域。僅就人才培養來説,對於AI方面的專業人才,我們要同時注重基本原理的思維能力和工程能力;對非AI專業的人才,我們必須切實加強AI通識教育。
另外,建議注重實現人才資源和算力資源的有效對接。高校不缺人才但缺算力資源,大企業不缺算力但在人才資源方面處於劣勢。我們需要將有限的人才資源和算力資源有效地對接起來。
從創新生態來看,加快建立鼓勵原始創新的生態環境及文化,提倡做與眾不同的事情,提倡“別人做了,我就不再去湊熱鬧”的科研心態。市場應給創新足夠的生存空間,政府部門應更加重視資源分配的合理性。作為創新群體,我們必須具備高度的社會責任感、冒險精神和實幹精神,下決心真正從源頭上解決科技創新中面臨的困難,開創嶄新的局面。