人形機器人可完成多語言逼真唇形動作在教育和老年護理領域具應用潛力-新華網

人形機器人在學習真實的嘴唇動作。圖片來源：美國哥倫比亞大學

科技日報北京1月19日電（記者張夢然）美國哥倫比亞大學科學家設計出一種新型框架，使人形機器人面部能夠根據音頻生成逼真的唇部動作，實現與人類語音的同步。該技術還展示了較強的泛化能力，可推廣至包括法語、漢語和阿拉伯語在內的多種語言，即使這些語言並未出現在訓練數據中。研究團隊在發表於最新一期《科學·機器人學》上的論文中指出，這一進展是朝着構建不僅能執行功能，還能進行人性化交流的機器人邁出的重要一步。

在對話中，如果機器人的唇部動作與聲音不匹配，會顯得呆板且不自然。然而，現有機器人普遍缺乏執行精細口部動作的靈活性，能實時將語音轉化為自然唇部運動指令的技術也寥寥無幾。

研究團隊在2024年曾發表研究，描述了一種人形機器人面部可以預測人類的微笑並同時再現該表情。在此基礎上，為更加精細化唇部與聲音的匹配，團隊設計了一套學習流程：首先採集機器人唇部運動的視覺數據，用於訓練模型並生成運動參考點；隨後通過一個名為“面部動作轉換器”的模塊産生運動指令，使機器人的唇部能夠流暢配合不同詞語。他們還專門研製了一種人形機器人面部結構，採用柔軟硅膠皮膚，配合磁性連接器，具備10個自由度，可驅動複雜的唇部運動。其唇部結構能形成覆蓋24個輔音和16個元音的各種口型。

在驗證過程中，團隊借助ChatGPT生成測試語句，並合成了具有理想唇部動作的視頻作為對比基準。結果表明，該方法在5種比較方案中表現最優，其生成的唇部動作與理想視頻差異最小。此外，該框架還能為11種不同語音結構的非英語語言生成自然的唇部同步效果。

研究團隊推測，這類人形機器人在教育、老年護理等領域具有應用潛力。但他們也強調，未來的設計工作需格外謹慎，以防止技術被濫用。

【總編輯圈點】

現在，AI讓虛擬人物動嘴説話已經“不在話下”，然而讓機器人做到這點還相當困難。大多數機器人“説話”時並不動嘴，即使動嘴，也只是象徵性一張一合。這次，科研人員試圖讓機器人擁有人類一般細膩、精準的唇部動作，教它們通過合成視頻以“照鏡子”的方式學習；還開發了硅膠皮膚，設計了面部機械系統。結果表明，機器人可以“學會”多種語言的唇部動作。不過，研究也不禁讓人思考，當機器人真的開口説話，“恐怖谷效應”是會加重還是減輕？

【糾錯】【責任編輯:冉曉寧】

深度觀察

新華全媒頭條丨海昏侯墓十年考古發現

人形機器人可完成多語言逼真唇形動作 在教育和老年護理領域具應用潛力

人形機器人可完成多語言逼真唇形動作 在教育和老年護理領域具應用潛力

人形機器人可完成多語言逼真唇形動作在教育和老年護理領域具應用潛力

人形機器人可完成多語言逼真唇形動作在教育和老年護理領域具應用潛力