新華網 正文
特稿:人工智慧助力保護“多彩鄉音”
2019-08-29 18:25:41 來源: 新華網
關注新華網
微博
Qzone
評論
圖集

  新華社重慶8月29日電  特稿:人工智慧助力保護“多彩鄉音”

  新華社記者彭茜 黎華玲

  “幹啥子喲?”“你瞅啥?瞅你咋地?”

  在2019中國國際智能産業博覽會(簡稱“智博會”)上,一款內嵌了最新人工智慧方言識別技術的智能翻譯機逗樂了來自天南海北的觀眾。

  無論是四川話、東北方言,還是吳儂軟語,都被科大訊飛翻譯機逐字逐句轉換成漢語文本,再實時翻譯成英文。

  此次參展的阿里巴巴人工智慧實驗室也開發了可識別四川方言的智能音箱“天貓精靈”,預計今年9月後正式發布,未來還會以智能音箱終端為基礎,通過語音交互採樣建立覆蓋全國的動態方言數據資訊庫。

  人工智慧,正在幫助我們留下“多彩鄉音”。

  方言是中國語言文化的瑰寶,傳承豐富的歷史文化內涵;方言也是人們鄉情的根系,具有豐富的人文價值。在我國,部分“小方言”在經濟社會飛速發展的背景下有消失風險,方言的保護和留存極具緊迫性。

  長期在中國進行漢語方言調研的韓國首爾大學中文係主任樸正九教授接受新華社記者採訪時説,漢語方言使用人口多、地域廣,在全球語言學研究中佔有非常重要的地位,漢語方言有助于研究人類語言的共性和個性。

  早在2012年,科大訊飛就以粵語為突破口,開展方言識別技術攻關。2017年,科大訊飛輸入法聯合中國聲谷發起“方言保護計劃”,近3年來已收集超過86萬條方言語音,支援23種方言語音輸入,實現包括粵語、四川話、湖南話等11種方言的語音合成;微信小程式“我AI説方言”還方便公眾隨時隨地上傳方言,建設中國方言庫。

  阿里巴巴人工智慧實驗室今年也宣布,正式成立方言保護專項小組,投入1億元人民幣對漢語方言進行保護和開發。

  科大訊飛輸入法業務部副總經理、“方言保護計劃”發起人李強軍介紹,方言語料的採集、記錄和歸納是方言識別的基礎。以前,這項工作很大程度依賴于調查者主觀感知,而歸納完整的語音變化、進行句法和語義分析等工作難以單靠人力完成,所以有必要建立分屬不同方言的數據庫,利用人工智慧係統地對方言文字、發音等進行整理。

  “各種漢語方言在語法語音上的特徵都不相同,很難被係統整理。用上人工智慧技術,對方言保護和研究大有幫助。”樸正九説。

  其實,外語語音識別與方言識別的人工智慧訓練方法是相通的。隨著技術進步,可用統一的語音識別模型,導入各地方言等不同語料進行無監督訓練。我國語言學界將現代漢語方言分為十大方言區,方言識別難度有所不同,落實到輸入法産品中,識別準確率也略有差異。

  “適配不同的方言識別,對整體語音識別技術也會是一種促進和優化。”阿里巴巴人工智慧實驗室高級産品專家張平介紹,做方言是為了讓更多地域人群能更好地交流,同時也更多保護地域文化。“我們第一款先做四川方言,就是因為四川方言在中國方言中用戶佔比大”。

  開發“方言版”語音識別,還有助于設計出更貼合消費者需求的智能語音交互産品。美國“風險投資節奏(Venturebeat.com)”網站數據顯示,中國已超過美國成為全球最大的智能語音市場,2019年第一季度智能音箱出貨量佔全球總出貨量一半以上。

  國外智能語音産品廠商也在努力開發能識別各種英語口音的版本。有趣的是,曾經有一位美國消費者投訴亞馬遜公司的智能語音助手“亞歷克薩(Alexa)”,因為它不能識別自己母親的口音。

  目前,亞馬遜的“亞歷克薩”、蘋果的Siri和谷歌助手均可以識別標準美音、“印度味”英語和“中國味”英語。不過,據Vocalize.ai實驗室測評,這三種産品識別中國口音英語的準確率最低。另外,它們都沒有識別漢語方言的功能。

  由此可見,獨具中國特色的“方言版”語音識別産品還有助于中國企業開展差異化競爭。

+1
【糾錯】 責任編輯: 王萌萌
新聞評論
載入更多
“中國天眼”的晝與夜
“中國天眼”的晝與夜
第14屆莫斯科航展開幕
第14屆莫斯科航展開幕
秦俑!秦俑!
秦俑!秦俑!
探訪施華洛世奇水晶世界
探訪施華洛世奇水晶世界

010020020110000000000000011107271124938501