原標題:語料“螺絲釘”鉚緊東盟鏈
8月6日,南寧市西鄉塘區和德科創中心內,廣西達譯科技有限公司(簡稱達譯科技)的語言工程師們正在電腦前忙碌。界面上,越南語、柬埔寨語、泰語等東南亞國家的語言熱詞、熱句不斷滾動,經實時清洗、標注後,匯入公司15億句對的中文—東盟語言精加工語料庫。
“每一條新入庫的語料,都是未來翻譯引擎裏的一顆‘螺絲釘’。”達譯科技總經理溫家凱的話語裏,藏着企業與東盟語料庫建設的同頻共振。
溫家凱還是廣西翻譯協會副會長。他帶領的達譯科技自2009年成立起,就錨定東南亞語言處理技術領域。創業初期,團隊從越南語、泰語入手嘗試。“這是東南亞語言裏語料相對多的兩種語言,但當時只能靠純人工拆分對齊,要投入大量人力逐字比對,耗時長,稍不留神還會因語序差異或語義模糊出現錯漏。”溫家凱回憶。
技術突破的種子由此埋下,語言工程團隊提出了技術優化設想。溫家凱介紹:“從2012年開始,我們持續摸索與研發,根據需求迭代了五六十種自動化處理程序,實現了篇章的精準對齊和智能斷句拆句。”
而數據稀缺、語言資源分散、技術適配性差等行業共性難題接踵而至。為此,團隊自主研發跨語言預訓練模型,構建半自動化數據標注體系,令數據質量和處理效率大幅提升。
2024面向東盟人工智能合作會議上,達譯科技實現了英語、越南語、泰語、印尼語、馬來語、緬甸語、老撾語和柬埔寨語的AI實時翻譯投屏顯示,贏得現場嘉賓的一致好評。“在複雜環境下,我們的AI實時翻譯投屏準確率能達到85%,理想環境下可以達到95%以上。”溫家凱自豪地説。
達譯科技的成長軌跡,正是廣西構建面向東盟的語言“數字樞紐”的縮影。
今年以來,《廣西“人工智能+製造”行動方案(2025—2027年)》等文件密集&&,助推人工智能技術在各領域場景廣泛應用。廣西積極構建“北上廣研發+廣西集成+東盟應用”的人工智能發展路徑,把東盟語料庫建設作為打造中國—東盟人工智能合作高地的一號基礎工程加快推進,加強與東盟國家對接溝通。
如今,達譯科技的初級語料庫數據量達百億級,産品服務已超200家國內企業,但在拓展東盟市場時仍面臨挑戰。溫家凱坦言:“語言文化差異、技術標準不統一等問題仍阻礙着雙方的大規模合作。”
而正火熱進行的AI賦能千行百業超級聯賽為破局帶來了新契機。“這場聚焦人工智能、經濟轉型、東盟合作的賽事,會讓AI大模型和東盟語料庫建設碰撞出新火花,也為我們挖掘和培養人工智能人才提供了平台。”溫家凱説。
從人工敲打到智能迭代,達譯科技的15年探索,見證着廣西以“語言+數字”路徑打通中國—東盟合作脈絡的決心。在合作的熱土上,更多“螺絲釘”正不斷嵌入區域協同的齒輪,讓人工智能成為連接中國與東盟的橋梁,推動雙方合作邁向更深層次。(記者 楊思悅 黃君棟 實習生 周愛梅 黃穎霞)

