人形機器人打開“具身智能”藍圖-新華網
新華網 > > 正文
2024 06/13 08:11:45
來源:經濟參考報

人形機器人打開“具身智能”藍圖

字體:

  從搬運重物到端茶倒水,從進廠打工到做飯疊衣……當大模型為機器人注入“靈魂”,人形機器人“進化”加速。業內人士指出,人形機器人工業場景的落地最快今年或明年就能在部分試點實現,“入戶”則將在10年左右。

  變化——邁入“人形時代”

  近期,國産人形機器人領域動作頻頻:全球首例純電驅全尺寸人形機器人“天工”首次在北京人形機器人創新中心實現“擬人奔跑”、瞄準老年人陪護市場的人形機器人Unitree G1問世、工業版人形機器人Walker S進入蔚來總裝車間“實訓”當起“見習廠工”……

  不止中國,站上風口的人形機器人,正在席捲全球一二級市場。從創業公司到科技巨頭,從軟體&&到硬體開發,都在競相入場。當英偉達、特斯拉、微軟紛紛以實際行動&&“看漲”後,高盛重新調整了對2035年人形機器人全球市場規模的預期:從60億美元上調至380億美元。

  “一條千億元規模的賽道,三個因素缺一不可:市場需求的驅動、産業鏈條的完備、核心技術的突破。”優必選副總裁、研究院執行院長焦繼超説,“機器人+大模型”落地提速的今天,技術、資本、市場實現具身智能的熱情,掀起廣闊的想象空間。

  老齡化社會、少子化社會的疊加,以及勞動力的相對短缺,激發了社會對人形機器人的切實需求。“製造業(如汽車組裝、零部件排序)及特殊作業(如高空作業、危險任務)方面,人形機器人能完成高風險、重復性的臟活、苦活、累活,降低相關崗位的傷病率、死亡率,提升職業滿意度,因此市場對人形機器人的到來充滿期待。”北京大學計算機學院博士生導師、北大-銀河通用具身智能聯合實驗室主任王鶴説。

  記者來到北京人形機器人創新中心,迎面遇見一位身材頎長的機器人正在爬樓梯。這個名為“天工”的人形機器人不僅擁有聰明的腦、靈巧的手,絲滑的動作間還透著些許“柔美”,就連外形都與人類貼近:身高1.63米、體重43公斤。當工程師向“她”發出指令,只見“天工”上半身略向前傾,手臂配合腿部移動加大擺動,竟邁開小步跑了起來。

  深耕機器人20餘年的北京人形機器人創新中心總經理熊友軍相信,通用機器人的未來形態一定是“人形”。

  過去傳統的僅從事單一操作的專用機器人,如焊接機器人、打磨機器人,本質上是一個自動化設備,僅需執行人提前寫好的固定程序,因此形態上只需要一條腿或一隻臂。

  “而大模型為機器人注入‘靈魂’後,機器人獲得了前所未有的感知、理解、推理、決策能力,能完成複雜環境的多元任務。一方面,人類社會的基礎設施、場景構建、工具設計,均是基於人類的物理特性進行開發,‘人形’可降低適配成本、快速適應環境;另一方面,未來通用機器人的終極目標是走入人類生活、服務人類,‘人形’是與人交互最自然、體驗最優的形態。”熊友軍説。

  進化——實現“知行合一”

  這屆“人形機器人”妙在何處?

  相較于過去一隻機械臂,已“實訓”下車間的國産人形機器人Walker S用絲滑行動給出答案:“她”的一雙敏捷手對準車頭精準貼上車標,一雙靈巧腳帶動軀幹協調地自動走位到每個座椅進行安全帶的拉伸檢測,一雙“慧眼”還能對準車門、車身表面進行缺陷檢測。

  “這屆人形機器人的飛躍性突破是‘知行合一’。表現為‘聰明腦’指揮‘敏捷手’‘靈巧腳’,使機器人行動起來更加自主、靈活,且能在學習中不斷進化。”科大訊飛機器人首席科學家季超説。

  何來“聰明腦”“敏捷手”“靈巧腳”?

  “一方面,大模型的迭代使‘大腦’更加聰明;另一方面,人形機器人軟硬體能力的提升,使運動更加靈活。兩股力量牽引人形機器人的進化。”季超説。

  看上去,大模型有了“身體”,機器人也有了“大腦”。往裏看,其實是大模型的感知推理能力,融入了機器人的具身能力。

  這些類人的能力又是如何實現的?

  “源自三個部分:感知、規劃、執行。”王鶴説,從技術實現角度,如果拿人來類比,不僅需要人類智慧的核心大腦,也關係到負責運動控制的小腦。

  人形機器人的“大腦”負責感知、理解、規劃。“當我們對機器人説‘我渴了’,機器人首先會理解並拆解意圖,然後分步驟進行規劃設計:比如,第一步尋找水在哪,第二步思考如何打開冰箱門、從冰箱中取出水、關上冰箱門,第三步遞送到我們面前。這每一步,包括理解語義、任務規劃,都在‘大腦’中進行。”王鶴舉例説。

  人形機器人“小腦”的使命則是運動控制、任務執行。王鶴進一步解釋,“例如,如何找到冰箱位置、避開路障走過去,用多大的力去伸手拉門、冰箱門開到多大,以及行走的每一步如何調動四肢與軀幹、實現手眼腳協調運動,‘小腦’實現的任務是當前研發的難點。”

  “技術路線上,今天的人形機器人已經越來越接近人類思考、決策、執行的過程。”熊友軍説,過去的認知是通過語音交互、視覺識別,以自然語言理解的方式或傳統的人工智能方式實現,現在則使用VLA(視覺語言動作)這樣的多模態大模型來完成“大腦”功能。過去的運動控制是通過模型優化的方式,而現在人形機器人的跑、跳則更多是基於強化學習、模仿學習來實現“小腦”與“軀幹”的功能。

  大模型的迭代為機器人帶來的革命性變化在於,它不僅應用於“大腦”的理解、推理、規劃之中,也將融入到“小腦”“軀幹”參與的感知與執行過程。

  人形機器人擁有更加強大的泛化能力後,將更好地與物理世界交互,進一步降低部署成本、應用門檻,這也是具身智能前進的方向。“具身智能強調智能體與物理世界的交互與反饋,服務於現實場景,解決人類的實際訴求。”焦繼超説。

  演化——“入戶”十年可期

  人形機器人以“洪荒之力”模仿並復刻人類智能,但它終究不是人類。

  莫拉維克悖論指出,人類獨有的高階智慧對機器而言只需要極少的運算,如推理,而人類無意識的技能與直覺卻需要機器耗費極大的運算能力,如接住拋物。

  “眼下,人形機器人的能力瓶頸並非在於‘大腦’的感知、理解、判斷,而恰恰是缺乏類似人類‘小腦’的泛化執行能力。”王鶴説,這一瓶頸導致的問題就是人形機器人“幹活”不夠快、不夠敏捷。

  這一瓶頸的根源是高質量數據的匱乏。“機器人‘大腦’所需數據可從互聯網的文本、圖像中獲得,而‘小腦’所需的數據少之又少。有限的來源之一是國外部分企業採取的人工遙控機器訓練的方式,採集到的數據既難、又貴、且慢。”王鶴説。

  高精度模擬真實世界的物理場景、于倣真環境裏合成的數據不失為一種有效的解決方案。比如,合成靈巧手模擬真實世界抓取物體進行訓練採集到的數據,然後在真實環境裏測試、泛化,能破解機器人“小腦”所需的數據“投喂”問題。

  還有專家指出,實時性、推理速度也是當前具身智能面臨的另一瓶頸。目前,基於大模型的機器人控制在線決策至少需50毫秒,一般延遲為1至5秒,無法滿足工業場景3至10毫秒的需要。

  “人形機器人是一塊難啃的硬骨頭,它的突破一定需要時間的積累和技術的沉澱。大規模量産、商業化也都是挑戰。”多位受訪者&&,儘管人形機器人的成長速度肉眼可見,但距離産業爆發的“iPhone時刻”還有距離。

  “可以確定的是,人形機器人率先在工業場景落地,接下來是應用於商業場景,最後是進入千家萬戶。其中,工業場景的落地最快今年或明年就能在部分試點實現,人形機器人‘入戶’在10年左右實現。”熊友軍説。

  焦繼超給出一組數據:目前,中國是全球申請人形機器人技術專利最多的國家,共計6618件。“這將為我國人形機器人産業穩步向好發展夯實基礎。”

  “什麼時候我們能做到‘類腦模型’,把所有模態數據一股腦放入數據集中,還能響應足夠敏捷,聽得懂語義、解析得了意圖,也就真正實現了具身智能,這也是我們將著力解決的問題。”王鶴説。(記者 張漫子)

【糾錯】 【責任編輯:冉曉寧】