高擬真數字人直播帶貨有多強-新華網

　　當直播時長逼近6個小時、大多數電商主播顯露疲態時，直播間裏的主播仍然可以情緒飽滿地回答觀眾提問，時不時還能講兩句“段子”，吸引觀眾下單。

　　隨着人工智能技術快速發展，大模型向多模態加速演進，數字人成為融合大語言模型與多模態技術的創新應用，電商直播是數字人落地的極佳場景。數字人技術使商家無需投入大量人力、物力進行現場直播，能顯著降低場地租賃、設備採購、人員培訓等費用。同時，數字人可以24小時不間斷直播，進一步增加商品曝光時間和銷售機會，提升經濟效益。

　　但傳統數字人生成技術常面臨語音、語言、視覺多模態割裂的問題，表現為&詞生硬、語音語調與&詞情感匹配不佳、表情手勢單一等。百度首席技術官王海峰説，針對數字人應用痛點，百度創新研發了劇本驅動多模協同的高擬真數字人技術。

　　劇本的基礎是&詞。&詞生成不僅是內容輸出，還要貼合主播人設與語言風格，確保語言表達的個性化與一致性；在多主播場景中，還需實現語義邏輯、語調節奏和情感風格的整體協調。同時，為提升&詞的內容深度，還要引入內容規劃、知識增強與事實校驗機制，以降低人工智能幻覺風險。基於&詞，大模型可以直接生成一份數字人直播劇本。劇本自帶“視覺標籤”和“語音標籤”，它能夠告訴系統，對應&詞人物要做出哪些動作。

　　互動性強是電商直播場景的一大特點。在與觀眾互動過程中，語音合成的自然度是決定用戶沉浸感的關鍵因素。觀眾希望聽到主播有情緒、有起伏的聲音，而不是生硬機械的朗讀。王海峰介紹，針對這一需求，百度提出了“文本自控的語音合成”方案。文本自控的語音合成大模型不僅具備高復原的語音合成能力，還能夠結合直播&詞及主播個人特徵，把這些文本內容轉化為自然、有感染力的聲音，讓數字人不僅能發出聲音，更能精準傳遞出調侃、得意、強調等細微情緒。

　　除了要和用戶交互，數字人主播在直播時還要與商品和所在空間進行符合物理邏輯的互動。如何做到這一點？高一致性超擬真數字人長視頻生成技術，能對輸入的歷史視頻數據、劇本腳本、語音信息以及骨骼驅動等多模態信號進行分析與理解，並基於此分別生成高表現力片段、複雜“人—物—場”交互片段以及大動作大表情片段。系統能夠對這些片段在較長時間跨度上進行統一調度，確保語音、口型、表情與動作始終保持高度一致且同步。

　　如今，數字人正逐漸從實驗室走向各類應用場景，商業化進程顯著加快。可以預見，隨着深度思考、多模態交互等關鍵能力的躍升，還將有越來越多數字人出現在屏幕上，走進人們的生活中。同時，業內專家提醒，《直播電商監督管理辦法（徵求意見稿）》提出，使用人工智能等技術生成的人物圖像、視頻從事直播營銷活動的，直播間運營者應當在直播頁面進行顯著標識，持續向消費者提示該人物圖像、視頻屬於人工智能等技術生成，以與自然人名義或者形象進行明顯區分。

　　中國科學院信息工程研究所正高級工程師韓冀中説，人們在擁抱數字人技術的同時，也需設立清晰的邊界，必須防止利用高擬真技術以假亂真進行欺詐或虛假宣傳。技術的發展必須與法律、倫理的約束並行，確保創新在正確的軌道上行穩致遠。（記者都芃）

【糾錯】【責任編輯:朱家齊】

深度觀察

新華全媒頭條丨智庫報告解讀“十五五”時期中國經濟社會發展藍圖