破題數據之困-瞭望周刊社

破題數據之困

2025-11-18 10:07:55 來源: 瞭望 2025年第46期

  

➤“訓練具身智能大模型,需採集視、聽、觸、力覺等多模態數據,保守估計當前已有數據量與所需數據量之間至少還差兩個數量級。”

➤“可借鑒互聯網中&概念建立具身智能數據共享平台,制定貢獻即獲益規則,通過財政補貼、算力支持等政策激勵企業貢獻數據,再用數據交易機制保障投入回報,共同做大産業蛋糕。”

  文 |《瞭望》新聞周刊記者 杜康 石佳

  

  當前,一些具身智能産品已能夠靈活行走、騰躍翻轉,甚至完成抓取裝配。隨着具身智能火出圈,人們期待新一代機器人具有高泛化性,即機器人能夠在不同場景中穩定執行任務,在産業應用中完成零部件製造、精密裝配,商用中走進家庭等。

  數據是具身智能泛化能力的基石。通過構建大規模、多樣化、多模態、任務豐富的交互數據集,並結合先進的學習範式,提升在未知環境和任務中的適應性,具身智能才能真正落地應用,目前看仍有較長的路要走。

  目前具身智能大模型訓練數據有兩類,一是合成數據,二是真實數據。合成數據成本低,但與真實世界有偏差。真實數據高度還原現實場景,基於這些數據訓練的模型具有更高的可靠性和泛化能力。

  當前,業界正在創新多種採集方式,實現真實數據量的積累。在量的基礎上,各方還從技術創新、場景落地、標準建設等方面提升數據品質。

千尋智能 Moz1 機器人正在採集數據(2025 年 11 月 11 日攝) 受訪者供圖

  彌合真實數據量鴻溝

  業內認為,以真實世界數據訓練大模型,可逐步實現高泛化性。

  真實數據採集成本高、效率低。“訓練具身智能大模型,需採集視、聽、觸、力覺等多模態數據,保守估計當前已有數據量與所需數據量之間至少還差兩個數量級。”上海市數據科學重點實驗室主任、復旦大學計算機科學技術學院教授肖仰華告訴記者。

  目前,業界正創新多種採集方式,突破真實數據收集壁壘。

  一是搭建真機數據採標平台。例如北京人形機器人創新中心有限公司(下稱“北京人形”)正與百度智能雲建設百萬量級的高密度、高質量、高通用性數據集。北京人形大模型負責人鞠笑竹介紹,數據集包含了多種構型機器人在家庭、商業和工業場景中的數據,並已應用到北京人形多種自研模型的訓練中。其中,跨本體視覺語言動作大模型XR-1,搭載天工、Franka等不同構型機器人,多種任務平均成功率提升約20%。

  二是利用數據手套實時收集高精度操作數據。例如北大—靈初聯合實驗室設計了同構型外骨骼靈巧手,聚焦手部操作數據積累。

  “我們設計了一款類似電子化數據手套的設備,讓人在作業時佩戴,相比遙操作機器人夾爪採集數據,數據手套能夠實時收集到手部各關節的高精度操作數據,幫助機器人更好地抓取柔性物體、實現精密裝配。”北京大學人工智能研究院研究員、北大—靈初聯合實驗室首席科學家楊耀東介紹,單套設備每日的數據採集量能夠達到5000條,目前已經累計收集超百萬條手部操作數據,主要落地在物流分揀場景。

  三是以産品規模化落地獲取更具針對性的數據。維他動力(北京)科技有限公司聯合創始人趙哲倫介紹,無人駕駛驗證了一種獲取海量、多樣化真實世界數據的路徑,具身智能規模化落地部署會帶來真實數據回流,協助完成模型訓練和評測。

  楊耀東介紹,北大—靈初聯合實驗室的機器人技術正加速落地工業來料檢查、物流掃碼等場景,並將採集的數據用於解決大模型預訓練中交互準確性不足的短板,讓具身智能更貼合實際場景需求。

  以標準提質量

  隨着真實數據的量不斷積累,提升數據品質是決定具身智能能否落地場景的另一關鍵。

  當前各地建立的數據採集場,短期內確實讓數據總量顯著增長,新的問題是,數據與大模型、本體存在強耦合關係,存在“數據跟着本體走”現象,不同型號機器人的傳感器布局、算法差異,導致採集的數據格式互不兼容。

  “目前數據採集標準仍處於模糊階段,如果無法解決數據標準統一、可跨本體使用問題,現在採集廠收集的數據可用性會在未來機器人本體結構更新換代後大打折扣。”鞠笑竹提到,數據格式、術語、採集流程等的統一,能從根本上解決數據異構問題,為模型訓練提供高質量原料。

  覓途諮詢·具身智能研究院執行院長王淼建議,在技術多樣化和差異化基礎上,針對具身智能的數據基礎設施進行路線收斂,打通底層的工具鏈、數據格式、通信協議、安全認證,可以在一定程度上解決數據異構問題。

  業界已經在行動。智元機器人&&,今年9月公司已經成功通過由國家機器人檢測與評定中心發布的《人形機器人數據集CR産品認證實施規則》,拿下業內首張人形機器人數據集産品CR認證證書。通過認證的數據集能為企業提供符合場景需求的“合規數據”,大幅降低場景適配成本。

  提升數據利用效率

  數據採集標準完善後,加強數據流通使用,方可挖掘數據最大價值。針對企業因利益、安全顧慮不願共享數據的難題,政府或行業學會搭建數據共享平台以提升數據利用效率成為業界所盼。

  “可借鑒互聯網中&概念建立具身智能數據共享平台,制定貢獻即獲益規則,通過財政補貼、算力支持等政策激勵企業貢獻數據,再用數據交易機制保障投入回報,共同做大産業蛋糕。”肖仰華建議。

  具身智能數據的順暢流通,還需立法保障。當前缺乏明確法規與標準,隱私界定模糊。“具身智能數據隱私問題需結合來源判斷,合成數據與基礎原子動作數據暫不涉及隱私風險,但進入真實場景後問題便會凸顯,例如家庭環境對話、工廠實際工況等數據,與隱私和商業秘密深度綁定,中長期面臨風險。”王淼建議,加快完善相關規範,在保障安全的前提下推動數據流通。□