AI也能“讀”甲骨文,全球最大甲骨文多模態數據集宣布開源-新華網
2024 07/06 12:20:35
來源:新華網

AI也能“讀”甲骨文,全球最大甲骨文多模態數據集宣布開源

字體:

  新華網上海7月6日電(史依靈 實習生師千行)甲骨文是中國發現的年代最早的成熟文字,但其研究專業門檻高,存在眾多難點。而如今,在人工智能技術的加持下,甲骨文研究正跑出“加速度”。

  7月5日,在世界人工智能大會上,全球首個甲骨文多模態數據集正式開源。該數據集包含一萬片甲骨的拓片、摹本,以及甲骨單字對應位置、對應字頭、對應隸定字以及辭例分組、釋讀順序等數據。基於該數據集,研究人員可開發甲骨文檢測、識別、摹本生成、字形匹配以及釋讀等方向的智能算法,助推甲骨文研究加速數字化和智能化。

  全球首個甲骨文多模態數據集發布。新華網 發(受訪者供圖)

  “高質量的AI算法依賴高質量的甲骨文數據集。”數字甲骨共創中心有關負責人介紹,以往業界的甲骨文數據集存在信息簡陋、標注信息較簡單以及單一數據集字數較少等問題,“如檢測數據集,只能把字摳出來,不知道字是什麼;字符識別數據集,只能認幾百個字;因為專業知識缺乏,有些標注信息不完善等。這些也成為甲骨文智能算法開發的一大掣肘”。

  數字甲骨共創中心有關負責人説,此次開源的甲骨文多模態數據集集合了甲骨文數字化研究的最新成果。一方面,該數據集吸收了當前業界最先進的甲骨文研究資料,包括劍橋大學博士秦培超發布的鏡元甲骨文字庫和清華大學黃天樹教授發布的《摹本大系》;另一方面,AI相關技術的應用也為數據集的信息豐富提供了支撐。如由騰訊優圖實驗室聯合安陽團隊開發的甲骨字檢測模型,可以對甲骨片上的字進行一個初步的標注;字形降噪與匹配模型,為檢索提供了最直接的方法;甲骨校重算法,可以實現拓片與大系摹本的配準,使得大系摹本可以直接輔助拓片的標注;同時雙方聯合打造的協同創新&&,也大大提升了數據標注的效率。“此外,數據集專業復查以甲骨文信息處理實驗室的研究生為主力,充分融合了甲骨文知識和機器學習知識的專業知識,也大大提升了數據集在AI算法研究場景下的可用性”。

  中國社會科學院學部委員宋鎮豪&&,甲骨文是中華文明的重要瑰寶,甲骨文研究不僅有助於揭示中國上古信史,還能為現代漢字由來和漢語研究提供標誌性依據。通過AI技術的應用,有望加快甲骨文探析進程,解決長期困擾學界的疑難問題。

  “數字化和人工智能技術為甲骨文的破譯帶來了新的可能性和機遇。”安陽甲骨文信息處理教育部重點實驗室負責人劉永革説,甲骨文的研究對於中華文化的傳承和發展具有重要意義。期待與更多有志於此的科研團隊合作,利用先進的技術手段,進一步挖掘和解讀甲骨文中的豐富信息,促進歷史文化的傳承與創新發展。

  “甲骨文數字化及多模態甲骨文數據集的發布為甲骨文的研究和傳承注入了新活力。”廈門大學教授、國家傑出青年科學基金獲得者紀榮嶸&&,這一創新舉措不僅將古老的甲骨文以精準的數字化形式得以保存,確保了文化瑰寶的永續流傳,更通過多模態數據集的方式,集成了拓片、摹本,辭例分組、釋讀順序等多重元素,為研究者構建了一個全面而深入的研究&&。“全球最大的甲骨文多模態數據集的發布,將極大地推動甲骨文的跨學科研究,讓我們能更深入地探尋其背後的歷史脈絡、文化內涵和社會背景。同時,為公眾打開了一扇直觀而生動了解甲骨文的窗口,有力促進了中華優秀傳統文化的傳承與普及”。

  在騰訊數字文化實驗室負責人舒展看來,守護中華文脈,應煥活漢字源頭。“團隊一直在探索用人工智能助力甲骨文‘破譯’和活化利用,同時騰訊還將‘甲骨文AI破譯’納入‘探元計劃’支持的創新探索型項目的定向命題。”舒展介紹,騰訊聯合數字甲骨共創中心發布甲骨文AI破譯需求,揭榜挂帥,期待與有技術儲備、有意願共創、致力於AI助力甲骨文破譯的科研機構形成解決方案。後續將經過遴選評審的共創夥伴將獲得資助,共創甲骨文AI考釋破譯的新算法、新工具、新方法。

  近年來,騰訊持續探索數字科技與文化深度融合,運用前沿數字科技幫助文化遺産保護傳承,發起並推動了AI助力甲骨文研究、三星堆文物修復、國博數字人等多個項目,用數字技術推動文化遺産煥活。

【糾錯】 【責任編輯:王若宇】