“青龍”誕生記

2024-08-19 11:05:30 來源: 瞭望 2024年第34期

  

擁有43個自由度的“青龍”,代表了目前人形機器人行業比較頂尖的硬體設計水平

“‘青龍’&&的核心技術經過了十多年的技術沉澱,標誌着我們的人形機器人&&技術實現從無到有的突破。”

  文 |《瞭望》新聞周刊記者 董雪 龔雯 實習生 宮雅婷

 

  “你好,我是青龍人形智能機器人,能幫你做家務。”

  “你看桌面上有什麼?”

  “我看看。桌面上有三個麵包、兩個水果。”

  “你幫我清理一下吧。”

  “好的,正在為您整理中,我先把麵包和水果分類擺放。”

  説話間,身高1米85、體重80公斤的“青龍”看向桌面,依次拿起麵包和水果,分類放入筐中。現場展示了行走、對話、做家務等能力。

  在2024世界人工智能大會上,全球首款通用人形機器人開源公版機“青龍”驚艷亮相。“我們看到,人形機器人可以通過語言信息理解人的意圖,根據現場環境做出綜合判斷並執行任務。”現場工作人員介紹,這個任務看似簡單,實際上體現了“大小腦”的感知、規劃、決策以及控制能力,代表了國內人形機器人技術的領先水平。

  “青龍”由國家地方共建人形機器人創新中心(以下簡稱中心)打造,該中心於今年5月,由工業和信息化部和上海市政府共同授牌,落戶浦東。中心科研團隊碩博士佔比約80%,研究團隊長期從事人形機器人領域技術研究與軟硬體研發。

  擁有43個自由度的“青龍”,代表了目前人形機器人行業比較頂尖的硬體設計水平。“青龍”不僅在硬體參數上達到了國際領先水平,更在具身智能技術的集成與應用上展現出了特有的優勢。“‘青龍’包含人形機器人&&技術、具身智能、數據集和智能訓練場四大技術板塊,我們已經進行了開源,希望更多人參與到人形機器人的技術創新中來。”中心首席科學家江磊説。

  近日,《瞭望》新聞周刊記者走近“青龍”,與科研團隊對話,看如何打造和訓練一個“優秀”的人形機器人。

  機械軀體:人形機器人的“骨肉”

  “&&技術可以簡單理解為機械軀體,是人形機器人的基礎,包含行走與驅動系統、操縱與作業系統、感知與控制系統三大模塊。”中心機器人&&技術負責人梁振傑介紹説。

  本刊記者在現場看到,“青龍”一步一步走上講&,然後停下來向觀眾揮手打招呼,它走路的速度不算快,但步伐足夠穩健,軀體結構與人體類似。

  梁振傑介紹,“青龍”全身集成了43個主動自由度,實現從頭部到手部、臂部、腿部、腰部和踝部的全尺寸設計。關節模組是軀體結構的核心組成單元,它一共搭載了10種、31個關節,最大關節扭矩達到396Nm,峰值扭矩密度實現了200Nm/kg,用以實現高強度動力輸出。

  雙足負責行走,雙臂執行作業。梁振傑説,“青龍”的腿部系統追求輕量化、高剛度和低慣量,搭載了高扭矩密度的軸向電機,以此保障它在複雜地形中的穩態行走能力。其上肢配備了7自由度的機械臂與集成觸覺感知的五指靈巧手,為完成精細操作和複雜任務提供了硬體基礎。

  在動力和電源管理方面,“青龍”搭載了有能量回收系統和輸出穩壓管理的電源系統,可以支持其在複雜工況下持續運行3小時至4小時。

  “青龍”搭載了算力可達400TOPS的控制器和豐富的外部接口,用以滿足人形機器人産品以及常規外部設備的使用要求。400TOPS意味着控制器每秒可以進行400萬億次操作,是當前非常強大的算力,能支持複雜的AI應用和高級別的自動駕駛功能。

  &&整體集成了“視、聽、觸、嗅、動”五感融合設計,使人形機器人能感知周圍環境。

  “‘青龍’&&的核心技術經過了十多年的技術沉澱,標誌着我們的人形機器人&&技術實現從無到有的突破。”梁振傑説。

  青龍核心研發團隊是國內最早開展倣生腿足式機器人研究的團隊之一,擁有近十年機器人行業技術積累,構建了倣生機器人核心技術體系,建立了機器人控制、感知、交互等核心技術群,支撐着“青龍”處在國內人形機器人技術領先水平。

全尺寸通用人形機器人開源公版機“青龍”(2024 年 7 月 4 日攝)王翔攝 / 本刊

  具身大腦+小腦模型:人形機器人的智力

  “青龍”擁有“朱雀”具身大腦和“玄武”小腦模型。

  “朱雀”具身大腦是一個以多模態大模型為核心的機器人指揮調度中心,利用多模態大模型的感知能力、任務理解能力、記憶能力以及規劃能力,幫助機器人完成任務。輸入方式是文字和圖像信息,支持語音交互,最終將任務決策信息輸出給“玄武”小腦模型。

  記者採訪了解到,在當前發布版本中,“朱雀”具身大腦共集成3個大模型,分別是:科大訊飛星火大模型、上海人工智能實驗室書生·浦語大模型、上海人工智能實驗室書生·萬象多模態大模型。

  “朱雀”具身大腦擁有跨設備的調度框架。具體來看,書生浦語大模型和萬象多模態大模型運行在本地服務器,其中,語言大模型實現用戶意圖識別與對話功能;訊飛星火大模型與浦語功能相似,但是運行在雲端服務器;多模態大模型具備處理圖像的能力,當識別到用戶的任務與當前環境相關時,會啟用多模態大模型進行環境感知。

  中心具身智能負責人田翀説,在後續更新版本中,我們將微調參數量較小的語言模型,直接部署在機器人終端,作為大模型的補充。對於簡單問題,機器人直接做出回復,從而減少與服務器通信的時間,實現更快速準確的交互與技能調度。

  “玄武”小腦模型是任務執行模型,分為軌跡規劃模塊和運動控制器兩個部分。首先,軌跡規劃模塊負責輸出期望軌跡,它由端到端的機載視覺信息為驅動,以人類動作為模仿對象。然後,由運動控制器控制人形機器人做出相應的動作。

  田翀介紹説,小腦模型主要有控制理論、模仿學習、強化學習等三條技術路徑。控制理論通常需要對系統進行詳細建模,模仿學習通過模仿專家的行為來學習任務,強化學習則是讓人形機器人通過與環境的交互來學習,三者各有優劣。上述三種技術路徑,“玄武”小腦模型都採用了。

  不斷進化的具身大腦和小腦模型讓人形機器人更聰明。

  數據:人形機器人的“靈魂”

  受訪者&&,決定人形機器人智能程度的關鍵因素是數據。“數據是人形機器人的靈魂,數據越富集,‘大小腦’的智能越高、能力越強。”中心具身智能負責人邢伯陽介紹,“大小腦”需要非常多數據進行綜合訓練,包括但不限於多樣化垂類場景訓練數據、多模態語音數據、人體開源數據、運動捕捉數據、機器人本體數據、環境地形數據等。

  人形機器人自身的數據採集主要有兩類,邢伯陽説,一類是通過全身運動捕捉設備捕捉人體全身高精度運動關節角度,可以訓練人形機器人完成走、跑、跳、抓、拿、放等多種技能。另一類針對靈巧的專用作業和精細作業,是通過頭戴式視覺系統完成毫米級手部動作的採集。

  通過“解剖”小腦模型,能看出數據對其的塑造作用。“我們首先收集了大量的人力數據,以模仿學習為基礎打造行為策略和行為標準。然後利用控制理論和強化學習打造運動控制系統,在3個月內完成了小腦模型的算法開發和迭代。”田翀説,我們充分利用了人體運動數據,結合模仿學習策略,為機器人運動訓練提供了精準的參考軌跡和運動標準。同時,我們還將傳統的運動控制方法應用於數據收集工具的開發,並將這些思想融入到強化學習訓練中。

  通過技術融合,不僅提高了機器人運動控制策略的訓練效率,縮短了訓練周期,還確保了策略在實際應用中的安全性和可靠性,這是“玄武”小腦模型與其他小腦模型相比的一大特點。“當然,該模型還在發展初期,能力和功能仍需提升和完善。”田翀説。

  借助AI,管控&&同時完成對數據標注、管理與模型部署的需求,助力實現機器人數據採集、評估清洗、訓推一體的全流程閉環。邢伯陽向記者解釋説,通過倣真環境對採集數據實現快速的測試,對失敗數據單元進行刪除,完成對原始數據的清洗,再對神經網絡模型進行訓練,實現面向機器人端快速部署。

  中心計劃用3年時間完成“白虎”數據集的構建,一方面建設超過100個高精度運動採集設備,另一方面共享業界其他單位採集的數據,實現清洗後的高質量數據總量超過1PB,覆蓋超過100個場景、2000個任務。如果1部高清電影佔用的數據空間大約是1GB,那麼1PB的數據量大約可以存儲100萬部這樣的電影。

  訓練場:人形機器人的學校

  “人為演示一個動作大約50次,機器人就能學會。”在2024世界人工智能大會的國家地方共建人形機器人創新中心展區,記者看到了一個小型的機器人“訓練場”,現場工作人員如同一個熟練的“老師傅”做著生産線上的抓取動作,4個機器人則跟着他同步做出了一樣的動作。

  為什麼要搭建訓練場?中心技術負責人劉宇飛説,構建智能訓練場,模擬産線及工業流水線,收集多模態數據,並搭建數據管理&&,將有效提升人形機器人在不同場景下的作業能力,加速具身智能技術的發展與應用落地。

  在位於上海張江的國家地方共建人形機器人創新中心,記者看到更多機器人在努力學習人類本領:它們有的在學習高負載狀態下穩定快速地行走,有的在練習拿飲料、餅乾等不同形狀和重量的物品……

  “歸根結底,訓練場是數據生産和數據規模化的場地。”劉宇飛&&,訓練場分為感、存、算、學、用五個部分。“感”和“存”主要用來做雲端數據的採集,包括要操作的數據、音頻數據、自然語言、運動捕捉等。“算”和“學”是指機器人的技能模仿學習和強化學習,主要是做單臂、雙臂以及全身行為的運動訓練。“用”則是在工業生産線及服務等場景裏實現人形機器人最新的模擬和應用。

  劉宇飛介紹,訓練場數據的生産方法包括三個階段:

  第一步是打造單臂的單技能學習與作業對象環境的泛化能力。

  第二步是基於協作臂把這套技術路線遷移到“青龍”的上肢。

  “青龍”的上肢單臂擁有7自由度+6自由度的靈巧手,協作臂是單臂6自由度+夾爪;為了使靈巧手擁有更廣的作業空間,沒有加入手腕相機。遷移時,我們對採集數據實時優化,在時間上嚴格對齊動作軌跡和圖像,以達到和三相機(1頭部+2手腕)同樣的學習效果。

  第三步則是生産大規模、低成本的人類作業視頻。

  訓練場不僅關注“小腦”模型的訓練,還涉及“大腦”模型,如環境感知、行為控制、人機交互、雲端網聯等能力的訓練。

  “2024年,我們會在上海打造100+人形機器人的産品、100+人形機器人的訓練場。到2027年,我們期待能夠在多個城市、面向各類場景,搭建1000+人形機器人訓練場來服務整個人形機器人生態。”劉宇飛説。