僅需千分之一數據量！國産視頻模型即可實現物理操作-新華網

新華網北京7月26日電（記者張漫子）我國科技企業生數科技攜手清華大學25日發布具身基座模型Vidar。這一模型能夠用更少的數據，使虛擬世界中的“視頻指令”變成真實世界的“執行操作”，真正實現機器人的“指哪打哪”。

“僅用20分鐘的機器人真機數據，即可快速泛化到機器人，所需數據量約為行業均值的千分之一，顯著降低了機器人對數據的需求門檻。”生數科技創始人兼首席科學家朱軍介紹，模型創新性地構建了支持機器人雙臂協同任務的多視角視頻預測框架，在保持高性能的同時，展現出顯著的少樣本學習優勢。

Vidar是全球首個基於通用視頻大模型實現視頻理解能力向物理決策系統性遷移的多視角具身基座模型。“行業主流的視覺-語言-動作（VLA）模型高度依賴大量優質數據，並且這些數據往往只適配特定的機器人本體及其採集的特定任務集，然而數據收集費時費力且成本高昂。”朱軍説。

圖為三層“數據金字塔”的構成示意圖。受訪者供圖

而Vidar的核心突破在於其通過解構具身任務的執行範式，充分利用“大量通用視頻-中等規模具身視頻數據-少量機器人訓練特定數據”構成的三級“數據金字塔”，以實現“更少數據、更高效能”。

為使模型更加“見多識廣”“見機行事”——實現多類型機器人操作的密切配合、靈活適應更多樣的物理環境，研發團隊還創新性地研發出一種全新的具身預訓練方法，進一步增強對物理世界控制的精準度。

為突破現有具身智能數據被任務“過度捆綁”、規模難以做大的瓶頸，團隊創新構建了高精度預測逆動力學模型，實現了低成本、高效率、高精度的機器人動作預測。

“我們希望以多模態大模型推動數字世界與物理世界的深度融合與協同進化。”朱軍説，一方面，我們通過打造新一代數字內容創作引擎，使AI成為人類創意的延伸；另一方面，我們通過高效訓練具身視頻基座模型，實現虛擬與現實的深度互動。

【糾錯】【責任編輯:周小紅】