九章雲極繆旭:強化學習雲將成為群體智能的放大器-新華網
新華網 > > 正文
2026 01/09 18:46:31
來源:新華網

九章雲極繆旭:強化學習雲將成為群體智能的放大器

字體:

近日,在2025算力生態大會上,九章雲極DataCanvas宣布升級旗下強化學習雲平台Agentic RL。此次升級以Agentic強化學習(RL,Reinforcement Learning)技術為核心,直指千行百業構建專業級專家智能體的需求,旨在推動群體智能規模化落地。

九章雲極首席科學家繆旭介紹,新一代強化學習雲搭載的Agentic RL,是一種可精準適配各行業需求的強化學習技術,能讓通用AI模型快速升級為行業專家級智能體。該技術框架與傳統強化學習方案存在本質差異,其核心優勢在於目標設計的多樣性與聚焦性,通用智能轉化為具備領域專長的專家智能,再以動態組合放大群體智能,為産業智能化提供高效解決方案。例如,通過集成自動推理工具,可助力數學家解決複雜數學問題;借助3D引擎,能輔助設計師優化工業設計。

繆旭&&,人工智能訓練範式已從預訓練階段邁入後訓練的全新階段。自2024年9月,OpenAI發布的o1模型通過深度思考模型和Test time scaling技術重新恢復scaling Law效應,標誌着強化學習驅動的後訓練範式崛起。2025年初,DeepSeekR1的發布進一步驗證了強化學習在加速大模型進化方面的巨大潛力。尤其是依賴強推理能力的智能體,強化學習在長規劃過程中展現出卓越性能。

他介紹,大量的行業實踐驗證表明,Agentic RL已在專業屬性強的領域展現出不可替代的賦能價值。比如在供應鏈優化領域,通過九章雲極蒸餾強化技術,在R1基模型上訓練出的32B小模型表現力超越R1本身;在深度研究智能體方面,開源模型經九章雲極強化學習雲訓練後,能夠達到與閉源模型相當的效果;端到端優化,則使表現力大幅提升。

這些成功得益於九章雲極強化學習的三大核心特點:一是高效率獎勵函數設計,支持規則型與多維度獎勵函數,為強化學習提供精準高效的反饋機制;二是全異步系統架構,通過任務策略推演與N+T模型更新技術,將GPU使用率穩定維持在99%以上,大幅提升訓練效率;三是大規模存儲支撐體系,可實現頻繁高效的模型版本管理,保障強化學習過程的穩定性與自動化水平。

實測數據顯示,九章雲極強化學習雲端到端訓練效率較行業平均水平提升500%,綜合成本直降60%,核心性能指標實現行業領先。在應用場景落地層面,産品已在金融、醫療、製造、零售、農業等多個垂直領域完成標杆驗證,展現出強勁的産業適配能力。

在金融風控領域,通過Agentic RL構建的智能風控系統,可實時分析海量交易數據並動態調整風險評分模型。某股份制銀行應用後,欺詐識別準確率提升40%,誤報率下降25%,為信貸審批築牢安全防線。

在醫療診斷場景,某三甲醫院借助強化學習雲訓練影像識別智能體,通過持續學習百萬級病例數據,在CT影像分析中達到主任醫師專業水平,診斷效率提升3倍,同時成功發現傳統方法遺漏的早期病灶特徵。

在智能製造領域,汽車零部件廠商部署的智能排産系統,通過強化學習優化生産調度,將設備利用率從65%提升至82%,訂單交付周期縮短30%,實現産能、庫存與客戶優先級的動態平衡。

在零售優化場景,連鎖超市的智能定價系統依託強化學習,整合天氣、客流、競品價格等數百維數據實現小時級價格調整,試點門店毛利率提升5個百分點,滯銷品周轉率提高2倍。

在智慧農業領域,溫室種植環境控制智能體通過學習歷史氣候數據與作物生長曲線,自動調節溫濕度、光照參數,使草莓産量提升20%,同時降低能耗15%。

多領域落地成果引發專家廣泛關注。中國工程院院士、浙江大學農業生命環境學部常務副主任喻景權&&,算力與AI是激活農業生態價值的關鍵,AI專家智能體有望是踐行“兩山”理論的數字化解法。

針對強化學習“樣本使用率低、現實場景探索難”等行業挑戰,繆旭公布了九章雲極的攻堅方案。他介紹,採用基於回放的離線PPO強化學習方法,能夠實現5倍訓練速度提升;同時,可以與高校、科研院所合作研發世界模型,為智能體提供虛擬環境進行探索,避免現實世界中的高風險行為。

繆旭強調,此次強化學習雲的升級,是AI基礎設施向“智能體原生雲”轉型的一次重要探索,也是九章雲極在先進普惠智算技術的進一步深耕。依託Agentic RL核心技術與全棧式服務能力,既降低企業AI落地的技術與成本門檻,又能推動人工智能從通用能力走向專業深耕,促進群體智能的加速形成,賦能千行百業的智能化轉型。

【糾錯】 【責任編輯:顧彥 徐曼曼】