在AI技術快速迭代的今天,毫無外語基礎的人,似乎拿起手機就能和外國人交流;看不懂的外國文字,通過簡單“掃一掃”就能無障礙閱讀。不過,數智化的大語言模型能完全代替人工進行外語翻譯嗎?今天,北京第二外國語學院發布《大語言模型翻譯質量評測報告 BISU-AiTQA(v1.0)》。該評測突破國際現有評測以英語為核心的現狀,構建了以漢語為核心,覆蓋多語種、多領域的大語言模型翻譯質量評測體系。
報告中提到,雖然AI大語言模型在多語種的翻譯任務中已達到接近人類譯者的水平,但仍然存在無法理解複雜語言結構和深層語義、專業領域知識薄弱等問題。
北二外集中英語、日語、俄語、法語、阿拉伯語五個語種的師生力量,面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通義千問六個國內外語言大模型,從當代文學、黨政文獻和外事新聞三個領域開展翻譯質量測評研究。
語言不僅是溝通工具,更是人類思維方式的構建者。據了解,評測報告以漢語為核心、以中國特色文本為基礎,從語言特徵維度、神經網絡維度構建了包括詞彙多樣性、句法複雜度、篇章銜接度、語言可接受度等在內的六項指標體系,着重關注譯文的語言使用特性,可有效識別模型在詞法、句法和篇章銜接方面的能力,同時考察模型對語義的理解與語言表達能力。
從評測結果來看,即使生成式人工智能,目前也不完全具備處理複雜語言的能力,在借助人工智能技術時,使用者必須具有判斷力,培養這種判斷力正是外語教育重要的育人功能之一。
相關負責人&&,報告不僅實現了對大語言模型譯文的多維分析,更以實證方式檢驗了模型對中國話語、文化意涵與政策表述的處理能力,填補了“以漢語為核心”的多語種評測空白。(王璟瑄 李瑞璇)
【糾錯】 【責任編輯:張旭燁 張艷芳】