具身智能冷思考-瞭望周刊社

具身智能冷思考

2025-11-18 10:08:04 來源: 瞭望 2025年第46期

 

北京人形具身天工機器人在進行工件分揀工作   受訪者供圖

  文 |《瞭望》新聞周刊記者 扈永順

  

  具身智能是融合人工智能與機器人、“十五五”重點發展的未來産業。我國具身智能領域技術近年突破迅速、政策支持力度很大。國內涌現多個達到國際先進水平的通用大模型;以人形機器人為代表,整機技術實現突破,多模態感知、大腦-小腦模型等關鍵技術取得進展;資本市場看好其發展前景。

  仍要看到,當前具身智能在技術和落地上仍處於早期階段,多數具身智能産品應用場景集中在科研、教育以及部分工業環境的簡單任務。

  多位受訪專家認為,隨着政策支持和消費電子、汽車製造等場景落地加速,形成産業良性發展生態,具身智能有望加快商業化進程。國務院發展研究中心相關研究報告認為,中國具身智能産業市場規模有望在2030年達到4000億元、在2035年突破萬億元。

  熱度持續不減

  在上海浦東新區的一間試驗室內,一款1.5米高、人形上身、輪式下身的機器人可以根據指令“下蹲”後抓取地面物品。上海視豆智能技術有限公司創始人宋建軍介紹,他們的人形輪式機器人全身有22個關節模組,底盤全向小巧靈活,自主研發平衡算法,能夠保持身體平衡。運動能力強,整體負載10公斤,適合導游、導覽、教育、安防等産業,在無人商店、無人倉庫中應用潛力大。

  人形輪式機器人是具身智能各類形態中的一種,其他還有倣生、雙足人形機器人等産品,已在汽車製造、物流搬運、電力巡檢等場景中落地應用。

  整體看,受益於本體核心零部件日益成熟、模型算法等關鍵技術取得突破以及市場資金持續輸血,中國具身智能産業快速發展。

  ——産業鏈上游核心零部件“卡脖子”難題逐漸攻克,國産化率持續提升,産品性能接近國際領先水平。

  具體來看,上游本體製造環節優勢突出,無框力矩電機、諧波減速器等國産化程度高,不僅具備規模化生産與價格優勢,還向國外整機企業送樣測試;薄弱環節加速突破,六維力傳感器、行星滾珠絲杠、空心杯電機等曾由外資主導、國産化率低的領域,近2~3年國內産品性能持續提升。

  從供應鏈看,我國具備電機、傳感器、控制器等齊全的供應鏈體系和規模化生産能力、對下游需求響應迅速,具備降低具身智能本體生産成本的潛力,有望形成性價比優勢。

  覓途諮詢·具身智能研究院執行院長王淼告訴記者,2025年,宇樹科技等頭部企業進入小批量測試生産階段;2026年人形機器人市場將迎來量産元年,上游硬體市場將隨之爆發。“基於當前增長趨勢,預計2035年中國核心硬體市場將達千億級規模。”

  ——底層架構中,具身智能從前期模塊化的AI算法集成,逐漸轉向大模型驅動的統一技術框架,加之多模態感知加持,具身智能更“智能”。

  今年4月北京舉辦的人形機器人半程馬拉松比賽中,北京人形機器人創新中心有限公司(下稱“北京人形”)旗下具身天工機器人獲得冠軍。具身天工機器人依靠通用具身智能平台“慧思開物”賦能,該平台由大腦、小腦構成,大腦具備自然交互、空間感知、意圖理解、分層規劃和錯誤反思等能力;小腦涵蓋元技能庫、泛化抓取、技能拆解和錯誤處理等功能。在“跑馬”時,大腦先規劃路徑,再調用小腦技能庫執行具體動作,並將執行反饋傳遞給大腦,形成任務閉環。

  北京人形大模型負責人鞠笑竹介紹,科研人員利用各類大模型的知識理解和表達能力,實現了自然語言交互、多模態信息處理與轉換,逐步整合語、視、觸、聽等多種感官信息,大幅提升具身智能系統的環境適應性,並通過融合機器人運動經驗,為下一步機器人自主識別工廠、家庭等環境,主動完成搬運、家務等工作打下基礎。

  ——融資規模與頻次“雙高”,大量市場資金涌入。

  “最近已經與幾位投資人談過,相比其他機器人,我們産品還配備新型無線充電技術,投資人對此很感興趣。”宋建軍説,具身智能産業仍處於早期發展階段,但在政策、未來應用場景等驅動下受到資本高度關注,他希望盡快完成天使輪融資,實現産品下線。

  今年以來,市場成交了多筆上億元人民幣的融資,頭部企業獲得大訂單。6月,銀河通用機器人有限公司宣布完成了新一輪11億元人民幣融資;深圳市優必選科技股份有限公司9月斬獲全球單筆最大金額訂單,截至11月僅Walker系列人形機器人就已獲得超8億元訂單。

  賽迪研究院未來産業研究中心人工智能研究室主任鐘新龍認為,具身智能仍處於實驗室階段向中試驗證階段過渡,較為成熟的商業化應用場景的解決方案目前還有待挖掘與完善。機器人、智能設備等産品在實際生産、服務等領域的落地案例大多屬於可以幹,但距離幹得好仍有較大距離。此時,市場存在“重資本運作、輕技術研發”的現象,一些初創公司通過概念包裝吸引投資,但核心技術儲備不足,導致行業存在投資泡沫。

  對此,首正澤富創新投資(北京)有限公司股權投資部投資經理呂清維認為,現在的市場泡沫屬於結構性的短期泡沫,是科技發展周期中常見的“短期錯配”,表現為估值前置、收入滯後,目前項目集中在種子、天使、A輪階段,商業化驗證不足,估值與當期現金流不匹配;可複製訂單少,不少項目仍停留在概念驗證或樣機演示階段,還沒形成穩定的“規模交付+回款”商業模式。

  “具身智能是個充滿挑戰又充滿機遇的領域。‌企業聚焦核心技術突破、場景化落地、供應鏈優化及商業模式創新‌,如果能在兩三年內,把訂單、交付、回款、復購跑通,估值就能被基本面填平,消化泡沫。”呂清維説。

  挑戰重重

  從産業完善所需的技術鏈支撐看,具身智能最終要實現商用,還須解決在泛化性、軟硬體結合、標準與規範等方面存在的難題。

  ——提升泛化能力。泛化能力是指大模型在學習已知任務後,將能力遷移到未知但相似任務中的特性。大模型泛化能力強弱是數據特性、訓練策略等多維度因素共同作用的結果。

  首先是數據質量、數量與多樣性。大模型訓練所需真實數據獲取難度大,而易獲取的倣真數據與真實世界有偏差。

  對功能性操作、動作序列的學習等,主要在專門的數採訓練場用人工實採獲取數據,目前效率較低、成本較高。“以訓練一個烹飪機器人為例,需要按照烹飪流程,例如食材的放置、預處理、灶具操作、烹飪、裝盤、擺盤等進行任務分解,現實中每個環節均需採集大量數據。”北京人形具身數據負責人李廣宇介紹。

  數據獲取另一重要途徑是通過倣真生成數據。通過物理引擎高效、低成本地生成點雲數據集,用於描述物體或場景的幾何與語義信息。但倣真數據與真實世界存在偏差,模型在實際場景中易出現性能縮水、決策失誤。“倣真環境中的摩擦力、重力等物理參數通常是理想化設定,而真實世界情況複雜,比如杯子錶面沾油導致摩擦力變化,模型用倣真數據訓練後,真實場景中仍會抓握不穩。”中國科學院自動化研究所多模態人工智能系統全國重點實驗室研究員王鵬説。

  其次,在訓練策略方面,強化學習作為主流方法,其核心是通過與環境交互生成樣本,並基於獎勵函數的反饋調整策略參數。

  傳統強化學習框架存在雙重依賴困境:一方面,策略優化高度依賴訓練環境中獎勵函數的精確設計,例如自動駕駛任務需將雨天路滑、行人橫穿等複雜場景轉化為數學約束;另一方面,這種設計本質上是對特定環境分佈的擬合,當部署到新環境時,即使環境差異微小,如路面摩擦系數變化或光照條件偏移,策略也可能因獎勵信號失配而失效。

  清華大學交叉信息研究院助理教授高陽以自動駕駛為例介紹,開發者需將無限可能的環境交互轉化為可計算的獎勵信號,這不僅需要嵌入車輛動力學等知識,還需通過逆強化學習從人類駕駛數據中反演獎勵函數。此類方法易陷入維度災難,在連續動作空間中,手動設計獎勵函數需調節數百個超參數,且難以覆蓋極端天氣下的車輛失控等長尾場景,導致訓練成本呈指數級增長。

  強化學習的核心邏輯是“試錯學習”,這一過程往往需要海量的交互樣本才能收斂到較優策略,具身智能的訓練場景進一步放大了該問題,限制了大模型訓練效率,需要創新訓練方式。

  ——軟硬體深度集成面臨難題,阻礙大模型認知智能向物理指令的有效轉化。在自動駕駛等實時性和可靠性要求高的場景,需要雲端通信的高效率和本體側芯片強推理能力,這對軟硬體深度集成提出了更高要求。只有軟硬體深度集成,大模型生成的抽象指令才能被硬體“讀懂”,硬體的實時狀態才能及時反饋給大模型進行指令調整,形成閉環。

  具身智能執行任務時需結合複雜動作控制算法,這要求硬體具備極高的精度。硬體精度不足,影響與軟體的緊密耦合。“移動空間定位要達到厘米級,手眼協調的操作空間精度需達到毫米級,只有滿足高精度標準,具身智能的動作控制算法才能與産品硬體形態實現穩定、精準的耦合。”中國信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹。

  此外,動態環境數據的高維特性,傳統算法難以處理。“挑戰在於如何開發出高效、可靠的軟體系統,軟體不僅要能夠高效地處理和解釋由硬體傳感器收集的數據,還要能夠與硬體平台緊密集成。”李廣宇認為。

  軟硬體難以深度集成不僅會導致具身智能性能難以充分發揮,還將升高企業研發成本、使産業鏈難以高效協同。

  ——標準與合規挑戰。由於具身智能具備認知智能,又與物理世界直接交互,面臨系列挑戰。

  首先,具身智能技術、評測等標準化工作難度大。例如在技術評測標準面,中國人工智能産業發展聯盟已推出具身智能基準測試,旨在解決測試場景分散、任務碎片化且評價準則不統一等行業痛點,但在張蔚敏看來,具身智能基準測試標準體系建設數據規模仍有限,質量也不高,測試難以客觀反映具身智能的實際能力。需要構建任務活動知識庫,通過還原家庭、工業等真實任務場景,使基準測試更貼近應用需求。

  在安全監管方面,因機器人能與現實世界直接進行互動,誤用會産生直接的物理後果,其安全問題涉及模型安全、本體安全和信息安全等,標準必須不斷遞進。“亟待建立相關監管標準和規範,明確機器人在各個應用場景中的邊界和限制。”張蔚敏説。

  其次,法律與倫理規範建設需要深入研究。當具身智能産品與人類倫理髮生衝突時,如何規範、合理地開發AI技術、使用AI産品,以及如何應對人機交互過程中可能出現的社會問題,當下必須重視。“應加快完善法律與倫理規範,以應對人機交互過程中可能出現的信息安全、個人隱私等倫理和社會問題。”中國科學院科技戰略諮詢研究院副院長、研究員魯曉説。

多&優必選 Walker S2 在極氪 5G 智慧工廠群體協同作業    受訪者供圖

  築牢安全可控産業鏈

  面對競爭激烈的國際形勢,中國正在持續強優勢、補短板,以打造一條極具韌性的具身智能産業鏈。

  ——進一步鞏固本體産業優勢。

  首先,解決好部分産品量産一致性和可靠性難題。對一些關鍵環節卡點,如無框力矩電機、行星/諧波減速器等零部件方面,需加快攻關進度。

  以靈巧手為例,在手結構精巧度、類似皮膚的柔性感知方面仍有較大挑戰。“需要發展能夠模擬人類皮膚般觸覺的,兼具高分辨率、高耐用性和低成本的柔性觸覺傳感器技術,提高機器人進行精細操作的能力。”張蔚敏建議。

  其次,盡快降低成本。減速器、伺服系統以及控制器是具身智能本體的三大核心組件,在機器人整體成本結構中佔六到七成。

  “高功率密度、高響應速度、高精度的關節成本居高不下,是阻礙機器人量産的一個主要因素。”宋建軍舉例,通常機器人雙臂需要14個關節模組,其中組合了電機、減速器、編碼器、控制器等核心零部件,動作越精細,需要的關節模組越多,成本越高。

  “要打通技術突破、應用驗證的雙向循環,加快實現核心零部件量産,降低本體成本,加速大規模落地,進而以規模效應反哺技術迭代。”松延動力(北京)科技有限公司CFO韓深任建議,以産學研一體化的創新聯合體,支持高性能多自由度硬體本體技術突破,加快實現量産。

  ——加大基礎研究,提升底層框架自主性。

  首先,探索具身智能雙系統架構,模仿人類思維模式,提高具身智能通用能力。“目前業界從世界模型、擴散策略、腦神經科學等角度開展了相關研究,但仍未完全解決這一難題。”鞠笑竹説。

  人類具備雙重思維繫統,直覺、本能反應屬於快思考系統,理性、深度推演屬於慢思考系統,雙重思維繫統模式為具身智能突破“腦力”瓶頸提供了 啟發。北京大學人工智能研究院研究員楊耀東認為,科學界應深入探索快思考與慢思考的計算原理,推動具身智能快思考系統在感知、模式識別、模仿學習等方面具備毫秒級響應能力,同時讓慢思考系統在因果推理、符號規劃、長期價值優化中具備可解釋性和泛化能力,並建立可驗證的理論框架與跨任務評測基準。

  楊耀東告訴記者,當前的挑戰主要在於快、慢思考系統的信息耦合與優先級衝突、慢思考系統算力消耗與能效矛盾、複雜環境下快思考系統誤判與慢思考系統不穩健的平衡,以及兩者共同的安全性與價值對齊問題,需通過跨學科研究和産業生態建設逐步克服。

  其次,提升模型泛化水平。如針對傳統強化學習面臨的樣本效率低和獎勵函數設計複雜等難題,高陽研究組提出利用基礎先驗知識的強化學習框架,通過結合策略、價值和成功獎勵等基礎先驗知識,讓機器人不依賴稀缺昂貴的物理世界數據,也能完成做家務、做飯等複雜任務。

  “先利用互聯網上的圖像、視頻數據,訓練出包含物理常識的先驗模型,再把這些常識融入強化學習算法。機器人不用從零學起,能帶着常識在物理世界嘗試,快速掌握技能。”高陽介紹,目前該技術已經在千尋智能(杭州)科技有限公司應用,後續核心工作是從互聯網數據中提取更多精準常識,融入強化學習框架,提升模型通用性。

  再者,發揮新型舉國體制優勢,凝聚分散的科研資源轉向更底層、更通用的系統平台建設,構建國産安全可控具身智能操作系統。

  宋建軍等受訪專家建議,國內系統開發商需兼容國産硬體,能夠靈活適配國産芯片及各類傳感器、執行器,打破國外硬體依賴;提供易用的開發工具鏈和標準化接口,吸引開發者共建,避免生態碎片化。

  ——加速行業標準制定,完善倫理治理,引領全球具身智能發展。

  在標準化層面,主管部門已積極行動,2024年工業和信息化部已建立了人工智能標準化技術委員會,內設具身智能工作組,從系統研發支撐、智能系統技術、系統集成和系統應用四方面統籌推進國內具身智能産業標準體系建設工作。

  構建完善的倫理治理體系,不僅是技術發展的內在要求,更是實現技術與社會和諧發展的必然選擇。“我國的具身智能治理體系應當立足於以人為本的核心價值,堅持分級治理、制度創新與國際合作的基本思路,既保障技術發展的動力與空間,又確保社會秩序的穩定與公共利益的實現。”魯曉説。□