東巴古籍智能翻譯系統面世
深度保護傳承世界僅存象形文字
近日,由華東師範大學與麗江師範學院組成的社會實踐團隊聯合麗江市東巴文化研究院,依託語言文字基礎理論與多種人工智能技術,成功研發併發布東巴古籍智能翻譯系統。
東巴文是納西族的獨特文字,擁有1400多個單字,是目前世界上唯一存活的象形文字,被譽為文字的“活化石”。麗江市東巴文化研究院編著的《納西東巴古籍譯注全集》於2003年被聯合國教科文組織列入《世界記憶名錄》。然而,由於其字符的多樣性和非標準化特徵,傳承複雜且充滿挑戰。
基於此,2021年底,華東師範大學、麗江師範學院和麗江市東巴文化研究院組建跨領域專家團隊,啟動東巴古籍智能翻譯系統研發項目。系統以實際翻譯流程建模,構建“圖像—語音—直譯—意譯”級聯式智能翻譯流程。在人工採集與專家協作基礎上,建立包含257760個手寫東巴文的數據庫,集成563580組“形、音、義”多模態數據集。通過深度學習技術,實現對東巴古籍中象形文字的智能化識別與分割處理,並以華東師範大學智能教育研究院自主研發的教育大模型EduChat為基座,經過大量語料數據訓練,實現東巴文智能翻譯的領域適應。
經過近3年的努力,該系統初步實現東巴古籍的智能識別與翻譯功能,不僅可以實時反饋提供修改建議,優化翻譯流程,還支持用戶對翻譯結果進行個性化調整,以滿足專業研究的需求。
麗江市東巴文化研究院院長和潔蕾&&,該系統的研發是數智時代背景下人工智能與多學科交叉融合的探索,將推動東巴古籍文獻的深度保護、研究和利用。
據悉,三方還將深入探索東巴文的語義和文化細節,擴展多模態語料庫,持續優化和迭代東巴古籍智能翻譯系統。(記者 李興文 李鐵成 和茜)
【糾錯】
【責任編輯:范芳鈺】