何時擺脫遙控器
➤觸覺融入、硬體、模型等方面的挑戰,制約着具身智能向通用智能演進
文 |《瞭望》新聞周刊記者 王鶴 龔雯
從央視春晚上宇樹機器人“扭秧歌”開始,中國具身智能正以驚人速度成長,跑馬拉松、打拳擊、踢足球、跳街舞,還可以在汽車工廠“上崗”……每一個“驚人”的技能都在凸顯這個行業的發展新高度。
“這些花樣玩活的視頻放出來,把大家的胃口吊起來了,容易讓人誤判形勢,以為機器人已經高度成熟,可以做很多高難度事情,就快上天入地、無所不能了。”一位工業機器人企業高管感嘆,我們需要透過“表面繁榮”,看到具身智能的實際能力。
細心的人會發現,幾乎所有做高難度動作的機器人身旁,都有一位人類工程師在遙操,或者機器人提前植入了程序,也就是説,這些機器人還是“提線木偶”,需要人類“把着手”做事。
具身智能何時才能擺脫遙控器,距離“全自主”還有多遠?

機器人在北京國家速滑館“冰絲帶”舉行的 2025 世界人形機器人
運動會開幕式上進行 100 米賽跑(2025年 8 月 14 日攝) 謝晗攝 / 本刊
大腦“進化”
突破遙操的關鍵是要具備強大大腦,即機器能夠理解物理世界並與之交互,實現感知—決策—執行—反饋的閉環。以自動駕駛領域為例,VLA大模型(視覺—語言—行動模型)、端到端強化學習和世界模型是三類核心技術要素,三者協同實現機器從感知環境到執行動作的自主智能。
VLA大模型融合視覺、語言和動作三種模態,用於讓機器人理解環境、接受指令並執行物理動作,是具身智能基礎模型。今年6月銀河通用發布了面向零售場景的大模型GroceryVLA,實現機器人對複雜環境的自主決策與精準執行,例如當人類發出“幫我拿點吃的”指令後,機器人無需遙操作,無事先採集場景數據,通過自主規劃路徑,從貨架中識別並抓取餅乾飲料送達。
端到端強化學習是能夠直接從圖像、傳感器數據等原始輸入到動作輸出的強化學習系統,中間不依賴路徑規劃器等模塊,是訓練VLA大模型的關鍵方法。在2025世界人形機器人運動會上,清華大學教授、機器人控制實驗室主任趙明國帶領的機器人足球隊“清華火神隊”贏得足球賽冠軍。比賽中機器人已實現無遙操,能夠走、跑、跳、翻跟頭,具備在複雜、有障礙物路面上行走所需的平衡和適應能力。趙明國團隊的核心突破是採用端到端強化學習算法,直接將機器人的視覺信號,如球的位置、隊友/對手的位置、球場邊界等映射到運動控制指令,實現機器人的行走方向、踢球力度、身體姿態調整。
世界大模型是模擬環境動態的“虛擬大腦”,其核心是通過學習環境的物理規律,如物體運動、碰撞後果,預測未來狀態,為VLA大模型提供環境認知支持。在攻堅世界模型技術瓶頸方面,智元近期發布了自主研發的世界模型GE。相比傳統機器人的你説什麼、它做什麼,GE通過學習物理規律、環境動態,在內部預測未來狀態,模擬人類“腦內推演”,從而讓機器人具備了主動預判與決策的能力,像人一樣先想、再練、後做。搭載該模型的機器人已實現“做三明治”“倒茶”“擦桌面”等任務。GE平台開放底層架構,未來或成為機器人界的“安卓系統”。
通用智能還需突破核心挑戰
具身智能大腦技術不斷有突破,但要實現通用智能,讓機器像人一樣“理解”環境,具備舉一反三的泛化能力,受訪專家認為目前水平差距極大。“機器人在某些特殊場景下能自主完成動作,比如足球比賽,但到了別的場景就不會了。”趙明國説。
業界專家認為,觸覺融入、硬體、模型等方面的挑戰,制約着具身智能向通用智能演進。
觸覺融入方面,機器人從“看得見”走向“摸得着、懂力度、會適應”任重道遠。VLA大模型整合了視覺、語言、動作三種模態,如果再加上觸覺則困難重重。觸覺感知是一個多維度感知的能力,除了力度感知外,還涉及材質感知,比如表面乾性程度、溫度高低、柔性還是脆性等。
“當視覺數據跟觸覺數據加在一起,要考慮的有效數據元素過多,模型體量增大,難度也必然提升。”他山科技CEO、聯合創始人馬揚舉例,他山科技正在研究機器人剝小龍蝦任務,這種看似非常簡單的精細動作,實則需要大量的訓練和學習。“我們目前在武漢招募了十幾個人的團隊做小龍蝦項目,計劃今年底完成模型訓練,並推進小批量試驗。”
硬體方面,具身智能本體端部署的大模型,對算力水平要求高,專用芯片仍不夠成熟。“需要加速發展低功耗、高性能且專用於具身智能大模型的芯片;同時將大參數模型輕量化、小型化,並保證在執行任務時性能不會大幅下降。”一位高校具身智能專家提出。
算法層面,業界仍難以訓練出強泛化能力的大模型。中國信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹,在3D場景中的情景問答(SQA3D)任務中,當前最先進的模型準確率已提升至55%~60%區間,但仍遠低於人類的90.06%,這表明算法成熟度不夠高。
此外,目前探討的具身智能多為單體智能,在實際應用中,多台機器人協同工作的群體智能,亦是行業需要攻克的課題。
不可否認,具身智能産業飛速發展,泛化能力正越來越強大。“部分場景樂觀估計三五年就能在技術上實現突破。”趙明國&&。
分級分類加快落地
加速實現通用智能,僅靠實驗室環境無法模擬複雜場景的動態不確定性,需要在真實落地場景中暴露問題並找到解決方案。“具身智能需要一個標準分層,有標準就可以實現技術對齊,加速産品落地。”瑞銀證券中國工業分析師王斐麗説。
目前,國內一些行業機構效仿智能駕駛分級標準,提出了具身智能相關分級框架,以加快技術進步和場景落地。
例如,2024年10月國家地方共建人形機器人創新中心聯合行業內企業和機構,在上海發布了《人形機器人分類分級應用指南》團體標準和《具身智能智能化發展階段分級指南》團體標準。
北京人形機器人創新中心有限公司牽頭制定的團標《人形機器人智能化分級》從感知、決策、執行、協作四個維度建立了四維五級評價體系,給出了通用安全底線,明確了不同等級機器人的能力要求和適用場景,有助於加速推動人形機器人在特種作業、物流搬運、教育科研、商業服務、健康養老等多領域的應用落地,打破技術與場景之間的壁壘。
受訪專家建議,參照自動駕駛在封閉場景和開放場景中不同等級的應用,加速人形機器人等分級應用。工廠車間等封閉場景,障礙物、光線、地形等因素都比較容易預測和控制,高等級人形機器人可以在這樣的環境中更穩定地執行複雜任務,如進行高精度的零件裝配、特定區域的貨物搬運等。而開放場景,具有高度的不確定性,人形機器人在這些場景中運行需要應對各種突發情況,因此可以使用較低等級的人形機器人執行一些特定任務,如引導服務、物品配送等,逐步積累開放場景運行經驗。□