“廉價”AI小模型:微創新還是大進步
1月8日,在美國拉斯維加斯,人們在展區觀看運用AI技術的新款電視
文/《環球》雜誌記者 彭茜
編輯/樂艷娜
繼DeepSeek R1以有限算力,憑藉強大算法創新“驚艷”全球之後,大模型研發領域似乎也開始打起“價格戰”。美國斯坦福大學、加利福尼亞大學伯克利分校等機構的研究團隊,先後宣布僅以幾十美元成本,開發出性能可媲美前沿推理模型的人工智能(AI)模型。這是否意味着大模型研發成本正逐漸下探,動輒數千億美元的研發費用將成為過去?
低成本玩轉高級推理
“這是開源模型對閉源模型的勝利。”正如法國計算機科學家、圖靈獎得主楊立昆此前在個人社交媒體評價DeepSeek時所説,開源模型正不斷推進AI領域的諸多突破性進展。微調、蒸餾等建立在開源模型基礎上的低成本創新技術,似乎正在挑戰大模型的燒錢邏輯。
美國斯坦福大學和華盛頓大學的研究團隊日前宣布研發出名為S1的模型,在衡量數學和編碼能力的測試中,表現出與OpenAI o1和DeepSeek R1等前沿推理模型不相上下的性能。
這一研究可以算是“站在巨人肩上摘果子”。根據論文,S1的核心創新在於採用了知識“蒸餾”技術和“預算強制”方法。“蒸餾”技術就好比對別人釀好的酒進一步提純。該模型的訓練數據是基於谷歌Gemini Thinking Experimental模型“蒸餾”出的僅有1000個樣本的小型數據集。
在算法上,S1則是對阿里雲的通義千問開源模型進行監督微調,並通過“預算強制”方法,控制訓練後的模型計算量。最後,使用16個英偉達H100 GPU僅進行了26分鐘的訓練便達成目標。
美國加利福尼亞大學伯克利分校研究團隊最近也開發出一款精簡的AI模型TinyZero,宣稱實現了DeepSeek R1-Zero在倒計時和乘法任務中的復刻版。該模型通過強化學習,實現了3B(30億模型參數)的大語言模型的自我思維驗證和搜索能力。
兩個研究團隊都以“低成本”為賣點,對外宣稱訓練成本僅為幾十美元。參與S1項目的斯坦福大學研究人員尼克拉斯·米尼霍夫告訴科技媒體TechCrunch,訓練租用所需的計算資源大約只需20美元。而TinyZero團隊核心成員加利福尼亞大學伯克利分校博士潘家怡也在其個人社交媒體上發文稱,其項目訓練成本不到30美元。
“低成本”小模型背後的真相
清華大學計算機系長聘副教授劉知遠接受《環球》雜誌記者採訪時説,部分海外研究團隊採用DeepSeek R1、OpenAI o1等高性能推理大模型構建、篩選高質量長思維鏈數據集,用這些數據微調小模型,可以低成本快速獲得高階推理能力。這些研究進展進一步驗證了DeepSeek R1論文中提出的觀點:利用大模型進行知識蒸餾可有效提升小模型的推理性能,這是AI前進方向的有益嘗試,但成本和整體性能都有誇張之嫌。
清華大學計算機系長聘副教授劉知遠
首先,超低成本只是局部費用。AI智庫“快思慢想研究院”院長田豐告訴《環球》雜誌記者,幾十美元成本只是最後一個環節的算力成本,並沒有計算基模型的預訓練成本、數據採集加工成本,與DeepSeek、GPT o1的完整訓練周期成本不具有可比性。此外,二者的成功均建立在其他成熟開源模型的微調基礎之上,而非從0到1的原始創新,底座大模型高昂的訓練成本並未被計入。這就好比蓋房子,只算了最後裝修的錢,卻沒算買地、打地基的錢。
其次,整體性能尚無法比肩成熟大模型。TinyZero僅在簡單數學任務、編程及數學益智游戲等特定任務中有良好表現,但無法適用於更加複雜、多樣化的任務場景。而S1模型也只能通過精心挑選的訓練數據,在特定測試集上超過GPT o1-preview,而遠遠沒有超過o1正式版或DeepSeek R1。在使用“預算強制”方法時,當思考的時間和內容越來越多時,S1模型還會有點“後勁不足”,性能提升不太明顯。
不過田豐認為,新研究中延長模型思考時間的方法、強制模型反思發現答案錯誤、高質量蒸餾數據集的推理提升等探索,都對科研群體有 啟發性。
以“二創”方式構建小模型的探索,也增強了AI的普惠性。這對採用基礎模型微調的二次開發企業具有現實價值,可快速根據自身實際情況微調出小模型,以更低成本將AI技術應用於業務中,推動更多領域的智能化變革。
成本逐年降低是趨勢
對於AI大模型的未來進化而言,此類小微創新只能算是“靈光一現”。
劉知遠指出,就推動大模型能力邊界而言,“知識蒸餾”技術意義不大,未來仍然需要探索大規模強化學習技術,以持續激發大模型在思考、反思和探索等方面的涌現能力,從而不斷探索人工智能的科學化技術方案。TechCrunch也刊文&&,蒸餾技術已被證明是一種以低成本重現AI模型能力的有效方法,但它並不能創造出比現有模型優越得多的全新AI模型。
目前,大模型研發成本依然高昂。2025年,Meta、谷歌和微軟計劃在AI基礎設施上投入數千億美元,部分資金將用於訓練下一代AI模型。相關專家認為,要推動AI創新的前沿發展,這一規模的投資仍不可或缺。
不過,拉長時間尺度來看,大模型研發成本還是呈逐年降低趨勢。百度2024年宣布,其文心大模型推理成本已降至2023年3月版本的1%,算法訓練效率提升到原來的5.1倍,推理性能提升105倍。清華大學和面壁智能2024年推出MiniCPM最新端側模型,只需要幾十億參數便能夠實現GPT-4o水平的能力,可在手機上高效運行。於2024年9月發布的DeepSeek V3激活參數降低到2024年4月同水平模型LlaMA 3 405B的1/10,訓練和推理成本相應降低,而時隔不到一年後發布的R1單任務推理成本僅為V3的40%,這均是能力密度持續增強的例證。
在大模型迭代過程中,存在類似摩爾定律的現象,即大模型的能力密度正隨時間呈指數級增強。劉知遠指出,2023年以來,大模型的能力密度大約每100天翻一倍,即每過100天,只需要一半的算力和一半的參數就能實現相同的能力。未來應繼續推進計算系統的智能化,不斷追求更高的能力密度,努力以更低成本——包括訓練成本和計算成本——實現大模型的高效發展。
在可以預見的未來,性能強大的模型終將不被算力巨頭壟斷,而是“飛入尋常百姓家”。