新華通訊社主管

首頁 >> 正文

阿里雲推出面向AI硬體的多模態交互開發套件
2026-01-08 記者 郭倩 來源:經濟參考網

1月8日,在阿里雲通義智能硬體展上,阿里雲發布多模態交互開發套件,該套件集成了千問、萬相、百聆三款通義基礎大模型,並預置十多款生活休閒、工作效率等領域的Agent和MCP工具,可應用於AI眼鏡、學習機、陪伴玩具、智能機器人等硬體設備。

隨着多模態大模型的發展,大模型已開始具備理解、感知以及和物理世界交互的能力,越來越多的硬體和終端設備廠商開始通過接入大模型來提升交互體驗。然而,僅靠基礎大模型仍無法同時滿足硬體設備對低成本、低時延、功能豐富和高質量效果的需求。 

據介紹,阿里雲多模態交互開發套件為硬體企業和解決方案商提供了低開發門檻、響應速度快、場景豐富的平台。

在芯片層面,該套件適配了30多款主流ARM、RISC-V和MIPS架構終端芯片平台,滿足市面上絕大多數硬體設備的快速接入需求。在模型優化層面,除通義模型家族外,阿里雲還針對大量多模態交互場景進行分析,推出適合AI硬體交互的專有模型,全面支持視頻、圖文等交互方式,端到端語音交互時延低至1秒,視頻交互時延低至1.5秒。

此外,該套件預置十多款MCP工具和Agent,覆蓋生活、工作、娛樂、教育等多個場景,例如,基於預置的出行規劃Agent,用戶可直接調用路線規劃、旅行攻略、吃喝玩樂探索等能力。

當天,阿里雲還展示了面向智能穿戴設備、陪伴機器人、具身智能等領域的解決方案。例如,在AI眼鏡領域,基於千問VL、百聆CosyVoice等模型,阿里雲打造了感知層、規劃層、執行層以及長期記憶的完整交互鏈路,可一站式實現同聲傳譯、拍照翻譯、多模態備忘錄、錄音轉寫功能,有效解決交互不自然、回答準確率低的難題。面向家庭陪伴機器人場景,基於千問模型和多模態交互套件,阿里雲推出的解決方案不僅可實時監測異常狀況,並及時推送告警信息,用戶還能基於關鍵詞查找、定位視頻,與機器人進行對話交互和控制設備等。

凡標注來源為“經濟參考報”或“經濟參考網”的所有文字、圖片、音視頻稿件,及電子雜誌等數字媒體産品,版權均屬《經濟參考報》社有限責任公司,未經書面授權,不得以任何形式刊載、播放。獲取授權

《經濟參考報》社有限責任公司版權所有 本站所有新聞內容未經協議授權,禁止轉載使用

新聞線索提供熱線:010-63074375 63072334 報社地址:北京市宣武門西大街57號

JJCKB.CN 京ICP備2024066810號-1