人形機器人可完成多語言逼真唇形動作 在教育和老年護理領域具應用潛力-新華網
新華網 > > 正文
2026 01/20 08:07:21
來源:科技日報

人形機器人可完成多語言逼真唇形動作 在教育和老年護理領域具應用潛力

字體:

人形機器人在學習真實的嘴唇動作。圖片來源:美國哥倫比亞大學

  科技日報北京1月19日電 (記者張夢然)美國哥倫比亞大學科學家設計出一種新型框架,使人形機器人面部能夠根據音頻生成逼真的唇部動作,實現與人類語音的同步。該技術還展示了較強的泛化能力,可推廣至包括法語、漢語和阿拉伯語在內的多種語言,即使這些語言並未出現在訓練數據中。研究團隊在發表於最新一期《科學·機器人學》上的論文中指出,這一進展是朝着構建不僅能執行功能,還能進行人性化交流的機器人邁出的重要一步。

  在對話中,如果機器人的唇部動作與聲音不匹配,會顯得呆板且不自然。然而,現有機器人普遍缺乏執行精細口部動作的靈活性,能實時將語音轉化為自然唇部運動指令的技術也寥寥無幾。

  研究團隊在2024年曾發表研究,描述了一種人形機器人面部可以預測人類的微笑並同時再現該表情。在此基礎上,為更加精細化唇部與聲音的匹配,團隊設計了一套學習流程:首先採集機器人唇部運動的視覺數據,用於訓練模型並生成運動參考點;隨後通過一個名為“面部動作轉換器”的模塊産生運動指令,使機器人的唇部能夠流暢配合不同詞語。他們還專門研製了一種人形機器人面部結構,採用柔軟硅膠皮膚,配合磁性連接器,具備10個自由度,可驅動複雜的唇部運動。其唇部結構能形成覆蓋24個輔音和16個元音的各種口型。

  在驗證過程中,團隊借助ChatGPT生成測試語句,並合成了具有理想唇部動作的視頻作為對比基準。結果表明,該方法在5種比較方案中表現最優,其生成的唇部動作與理想視頻差異最小。此外,該框架還能為11種不同語音結構的非英語語言生成自然的唇部同步效果。

  研究團隊推測,這類人形機器人在教育、老年護理等領域具有應用潛力。但他們也強調,未來的設計工作需格外謹慎,以防止技術被濫用。

  【總編輯圈點】

  現在,AI讓虛擬人物動嘴説話已經“不在話下”,然而讓機器人做到這點還相當困難。大多數機器人“説話”時並不動嘴,即使動嘴,也只是象徵性一張一合。這次,科研人員試圖讓機器人擁有人類一般細膩、精準的唇部動作,教它們通過合成視頻以“照鏡子”的方式學習;還開發了硅膠皮膚,設計了面部機械系統。結果表明,機器人可以“學會”多種語言的唇部動作。不過,研究也不禁讓人思考,當機器人真的開口説話,“恐怖谷效應”是會加重還是減輕?

【糾錯】 【責任編輯:冉曉寧】