大模型開閉源爭議何在-瞭望周刊社

大模型開閉源爭議何在

2024-10-28 15:25:50 來源: 瞭望 2024年第44期

  

  ➤模型能力是由算法、數據質量和算力投入大小決定,而不是由開源還是閉源決定

  ➤短期看,理想狀態是在開閉源兩種模式之間找到平衡,在技術進步與生態建立方面優勢互補;長期看,大模型可能會像互聯網一樣,逐步走向開源,由全世界共同維護、共同受益

  

  文 |《瞭望》新聞周刊記者 錢沛杉

  

  大模型應該開源還是閉源?

  開閉源對應兩種軟體開發模式——開源指開放源代碼,將源代碼公開發布並允許任何人查看、修改和使用;閉源則不公開源代碼,只對外發布編譯後的軟體。2022年底ChatGPT橫空出世,大模型開閉源路線之爭如影隨形。今年,國內大模型應用加速落地,開閉源爭論愈發激烈。

  4月,百度創始人李彥宏公開&&“開源模型會越來越落後”;5月,阿里雲首席技術官周靖人稱開源對全球技術及生態的貢獻毋庸置疑,已沒有再討論的必要……

  在9月底舉辦的2024世界計算大會上,國內外大模型産業的前沿動態備受關注,其中,大模型開閉源的爭論被多次提及。

  “現在開閉源模型數量幾乎是五五開。”中國軟體行業協會副秘書長、湖南先進技術研究院可控開源創新中心副主任楊程在大會上説。《中國人工智能大模型地圖研究報告》顯示,截至2023年5月28日,我國大模型數量已達79個,超半數屬於開源模型,如清華大學的ChatGLM-6B、復旦大學的MOSS等。

  業內人士告訴《瞭望》新聞周刊記者,大模型開閉源之爭表面上是性能與技術路線之爭,實則利益才是重中之重。短期看,理想狀態是在開閉源兩種模式之間找到平衡,在技術進步與生態建立方面優勢互補;長期看,大模型可能會像互聯網一樣,逐步走向開源,由全世界共同維護、共同受益。

  表面是技術策略之爭

  在2024世界計算大會的成果展示區,一款腦血管病專病大模型引來不少觀眾諮詢。新華三集團工程師彭洋説,這款大模型被“投喂”了海量病歷數據,醫生僅需輸入患者血壓、心率、病史等信息,大模型就能給出詳細的診療方案,展現出不俗的應用潛力。

  業界將2023年稱為大模型産業研發元年,今年則是大模型應用落地之年。推動應用落地,不僅要提升語言模型質量並配套不同技術,還要通過框架優化降低落地成本。在此背景下,開閉源路線之爭引發熱議。

  開源派多論生態建設價值,閉源派則多講性能領先優勢。有業內人士認為,多數開源大模型並非“真”開源,閉源大模型的技術壁壘也尚未穩固,技術路線之爭只是表象。

  在傳統軟體領域,開源軟體初期研發成本低、技術迭代快、便於建立生態已是不爭的事實。據Linux基金會統計,全球軟體産業代碼中,70%以上源於開源軟體。當前主流的基於深度學習框架的大模型大多也基於開源軟體而來。

  但大模型開發及授權模式與軟體不同。楊程説,市面上多數大模型開源是以開放權重,即預訓練模型為主,並沒有開源數據和訓練細節。有業內人士認為,只開放權重的大模型是閉源、開放使用的“免費軟體”而非“開源軟體”。

  受訪人士介紹,無論是大模型還是軟體,發揮開源優勢,本質上是吸收開發者對大模型或軟體的改進。目前對開源大模型的改進主要通過微調實現,但因微調主要針對模型輸出層調整不涉及核心構架和參數,無法從根本上改變模型的能力和性能。

  即便“真開源”,受技術特性與訓練成本所限,開放式協作對大模型性能提升效果也有限。楊程説,大模型訓練過程需要耗費大量算力,算力成本居高不下,即便創作者開源數據集和訓練細節,普通開發者也很難承擔復現訓練過程的高昂訓練成本,模型能力難以因開放而得到實質提升。

  數據顯示,ChatGPT一次完整的模型訓練成本超過8000萬元。進行10次完整的模型訓練,成本便高達8億元。

  因此,目前全球範圍內的頂尖大模型多采取閉源開發策略。不過,閉源模型的性能優勢正在減弱。

  有海外機器學習科學家統計了2022年4月到2024年4月期間,開閉源模型的性能表現,認為儘管開源模型較閉源模型性能仍有差距,但差距正在縮短,由GPT-4剛發布階段的滯後幾年時間縮短到6至10個月。

  “儘管開源模型並不像軟體開源那樣可直接獲得性能提升,普通開發者仍可通過模型測評、論壇討論等渠道向開發者反饋使用體驗,整體上看,開源反饋迭代速度優於閉源。”受訪者認為。

  短期看,開源與閉源孰是孰非並非絕對。北京智源人工智能研究院副院長、總工程師林咏華認為,模型能力是由算法、數據質量和算力投入大小決定,而不是由開源還是閉源決定。

  核心是利益之爭

  開源與閉源既是技術策略,更是商業策略。表面上的發展路線之爭,實則是利益之爭。

  記者梳理國內知名大模型的開閉源情況發現,阿里雲、騰訊等雲廠商旗下模型更傾向於開源,智譜AI、百川智能、月之暗面等大模型創業公司則傾向於閉源。

  “核心還是盈利模式。”受訪者認為,生成人工智能算力成本高昂、研發投入較大給企業盈利帶來一定困難。

  根據市場媒體統計數據,國內已經有近8萬家AI企業因為陷入資金困境而淘汰出局。想不被淘汰,找對盈利模式很重要。

  選擇不同的路線源於開發者基因不同。阿里雲等雲廠商核心業務是雲服務(計算、存儲、網絡、數據庫等),屬於大模型的上游業務,選擇模型開源的目的是通過免費的下游産品吸引開發者使用,促進數據消耗,帶動上游雲産品使用量。

  選擇閉源的企業則多為大模型創業公司,以AI為核心業務,希望靠大模型盈利,因此更強調閉源模型的價值。目前,閉源大模型主要通過應用程序編程接口(API)調用次數,即使用量計費。對企業多是以項目制結算,對消費者,常見模式則是通過訂閱和廣告抽成。相比開源,閉源的商業模式理論上更為健康,但短期內能否盈利仍有待觀察。

  在月之暗面創始人楊植麟看來,訂閱按照用戶數量收費,無法隨着産品創造出更大的商業化價值,廣告抽成模式即廣告主為用戶的注意力買單,已在互聯網&&得到了驗證,但因用戶的時間與注意力有限,該商業模式的可持續性也相對局限。

  受訪人士認為,開源與閉源模式之爭表面上是技術路線差異,實則是在大模型應用加速落地的背景下,企業為爭奪市場佔有率的商業策略之爭。

參會嘉賓(右)在 2024 世界計算大會體驗 AI 視頻生成(2024 年 9 月 24 日攝) 陳振海攝 / 本刊

  短期共存 長期走向開源

  大模型企業之間開閉源口水仗不斷,但這些爭論並不會否定彼此的市場價值。“相比模式選擇開源或閉源,用戶更關心投入産出比和數據安全。”一家國産軟硬體服務供應商負責人認為,在企業的工具箱裏,開源模型與閉源模型是互補的。

  “開源模型與閉源模型各有利弊。”他説,開源模型前期免費但無法“開箱即用”,後期隱性成本較高,更適合預算有限、對數據安全要求高的學術研究、業務探索等小型項目;閉源模型供應商通常會提供技術服務,模型相對穩定可靠但費用較高,適合對成本不敏感的大型項目。

  簡單來説,使用開源大模型約等於可以免費使用廚房但不提供菜譜,需要自己買菜做飯;使用閉源大模型則相當於付費去餐廳吃飯,餐廳提供現成的餐食和配套服務。

  短期來看,二者並不衝突。記者了解到,一些企業會在前期通過免費的開源模型驗證業務效果,中後期購買閉源模型與微調過的開源模型內部“賽馬”,根據不同的業務需求隨時切換。

  對於模型開發企業而言,開源模型與閉源模型也可並行發展——開源前一代性能落後的模型吸引用戶,再引導用戶付費使用性能更強的閉源模型。“這樣既能快速迭代技術、建立生態,也能逐步建立良性的盈利模式。”受訪企業負責人説。

  短期內,開源與閉源共存並相互競爭有利於國産大模型行業逐步壯大。北京郵電大學人機交互與認知工程實驗室主任劉偉在一次採訪中&&,開源會使不可控因素增多,但如果都閉源、奉行保守主義,AI技術發展則會放緩。理想狀態是在開閉源間尋求平衡,前提是保證技術創新和發展的同時,能兼顧安全隱私、公平競爭、市場秩序、社會責任和可持續發展。如果一味地強調開源或閉源,是在將這個問題簡單化。

  業內有觀點認為,長期來看,大模型或將走向開源。中國科學院院士梅宏在演講中&&,大語言模型在未來需要像互聯網一樣,走向開源,由全世界共同維護一個開放共享的基礎模型,盡力保證其與人類知識的同步。否則,任何一個機構所掌控的基礎模型都難以讓其他機構用戶放心地上傳應用數據,也就很難産生足以滿足各行各業業務需求的大量應用。

  “在這個開放共享的基礎模型上,全球範圍內的研究者和開發者可以面向各行各業的需求探討各種應用,構建相應的領域模型。”梅宏説。□