環球首頁 國內·國際·言論 | 經濟·財富·科技 | 社會·文化·生活·其他 | 專欄 | 過刊檢索 | 關于我們 | 環球廣告
數字化助力古籍回歸與再造
  新華網 ( 2021-09-24 07:27:35 ) 來源: 《環球》雜志
 

 

6月17日,國家圖書館古籍修復人員在修復畫譜

  通過古籍的數字化和公開化,讓古籍在世界范圍內免費流通,可以産生高效的新型學術研究環境。同時,通過對古籍圖像做文字識別和文化字,也可以建立起龐大的古代文獻全文數據庫,揭示歷史和文明發展的脈絡。

《環球》雜志記者/樂艷娜

  “明珠還于合浦”,這是日前廣東省立中山圖書館聯合國家圖書館(國家古籍保護中心)共同舉辦的“珠還合浦 歷劫重光——《永樂大典》的回歸和再造”展覽的主題。在這次展覽中,讓參觀者印象最深刻的,恐怕要數《永樂大典》數據庫。

  這一數據庫利用國家圖書館出版社高清倣真影印的成果,首次集中發布多家國內外收藏機構所藏《永樂大典》的高清彩色圖像,輔以圖文對照、版式還原、全文數字檢索等功能。

  數字化呈現的方式,讓《永樂大典》以特別的方式“回歸”,並得到了再造。專家表示,盡管古籍數字化仍處于初步探索階段,但其對古籍的保護和利用已經起到諸多積極作用。古籍這一中國文脈的骨幹,經歷戰亂和天災留傳至今,述説著中華文明綿延數千年的脈絡,借助最新的技術手段,完全有可能給我們揭開更多人類文明的秘密。

發現《瀛壖雜志》

  “19世紀以來,不少中文古籍稿鈔校本流傳到了西方國家,被海外圖書館收藏,其中不乏稀世之作,它們是中華文明的寶貴遺産。中國的學術思想和文化精髓亦借著這些典籍傳播推廣到西方諸國。今天,我們把一些珍貴罕見的歷代稿鈔校本編輯重印,以嶄新的面貌將這些珍貴文書送回它們的故國,嘉惠學界,並使這些文化珍寶得以傳延後世。這是一件重要而有意義的事情。”

  2013年8月,《柏克萊加州大學東亞圖書館藏稿鈔校本》由上海古籍出版社正式出版。加州大學伯克利(即柏克萊)分校東亞圖書館館長周欣平在序言裏這樣寫道。

  他指出,加州大學伯克利分校的中國藏品有三個來源:一是英國人傅蘭雅于1896年捐贈的2000余冊中文圖書,大多是明清刊本,最重要的是他在上海江南制造局主持翻譯的100余種西文科技著作;二是華人學者江亢虎于1916年捐贈的1萬余冊在義和團運動中幸存下來的圖書;三是二戰後採購的日本三井文庫中的10萬余冊中日韓文古籍善本。

  在這些藏書中,有一套清末文人王韜的《瀛壖雜志》。王韜先後遊歷英、法、俄諸國,鼓吹維新變法,中法戰爭時到上海任《申報》編輯。在《瀛壖雜志》中,王韜以體驗式的姿態記錄了上海的城市變遷與文化轉型,該書也因此被稱為“縮本上海志”。1989年,上海古籍出版社出版了這一作品,但他的手稿初稿,卻直到東亞圖書館這套書出版才被人們得知,原來藏在伯克利。“此稿多有校改增補,且有友人拜讀題識,可窺見其成書問世之經歷”,周欣平介紹説。

  8年後,“漢典重光”項目使伯克利收藏的中文古籍以數字化的方式“回歸”中國,周欣平親手挑選的首批善本裏,就有這套《瀛壖雜志》。

  “漢典重光”海外古籍數字化回歸與研究整理平臺由四川大學、阿里巴巴集團公益基金會、美國加州大學伯克利分校聯合發起,將藏于伯克利的20萬頁古籍善本數字化,並在平臺免費共用,其中包括40余種珍貴宋元刻本、寫本,明清至民國時期知名學者的抄本、稿本,以及著名藏書樓嘉業堂、密韻樓的抄本等。

  “我在伯克利,每年都要接待來自世界各地的學者,他們不遠萬裏坐飛機來到這裏,舟車勞頓、費時費力,就是要在東亞圖書館查閱古籍善本和特藏資源。如果我們把這些古籍放在網上公開了,任何人在任何時間都可以免費使用,24小時不關門。這將方便讀者,大大提高學術研究的效率。”周欣平談到這次數字化古籍項目時,對《環球》雜志記者表示。

  在他看來,通過古籍的數字化和公開化,讓古籍在世界范圍內免費流通,可以産生高效的新型學術研究環境。同時,通過對古籍圖像做文字識別和文字化,也可以建立起龐大的古代文獻全文數據庫,揭示歷史和文明發展的脈絡,“比如,要知道歷史上馬鈴薯是什麼時候被引進中國的,以往需要從浩如煙海的古籍中尋找相關證據,現在通過對海量數據文本的檢索,利用機器助力,很快就能找到明確答案,拿出有力證據,開闊視野。”

古籍數字化難題

  在周欣平看來,建立古籍善本數字公共平臺,除了方便研究者,最重要的是可以打破資源封閉、文獻孤立的局面。“以前傳世文獻是孤立收藏。不同典藏機構‘井水不犯河水’,這其中還存在各家把自己的古籍藏起來、相互封鎖的問題。今天,通過把大規模的傳世文獻數字化、公開化、社會化,可以凝聚各方力量和資源,打破封閉狀態。這不僅會使大量寶貴的公共資源自由流通,惠及社會,還會促進文化傳承。在網絡化的環境下,大量中華存世文獻將得到整體保護和延續。這是我們必須要走的路。”

  這一點為中央文史館館員、國家圖書館原常務副館長陳力所認同。在他看來,中國古籍數字化的探索早在上世紀八九十年代就開始了,已取得了長足進步。最開始,是利用電腦係統進行古籍編目。再往前,要查詢古籍,必須本人到藏書機構去翻閱卡片式目錄,但是“像國家圖書館,普通古籍有超過一半連卡片目錄都沒有,意味著讀者根本不知道國家圖書館有這些文獻”。

  陳力回憶道,他在國家圖書館的第一項工作,就是3年內將164萬冊普通古籍全部進行電腦編目。“每天都是上百人一起忙,3年後,國家圖書館所有的古籍都能用電腦查詢,係統也是向全世界開放的。古籍閱覽室的讀者原來每天只有幾位,有了查詢係統後,位子一下子全被坐滿。”

  此後,就是對古籍進行數字化掃描,也就是把紙質書圖片化,其中最大的工程是把地方志數字化,另外還包括對碑帖、甲骨文、年畫、西夏文等的數字化,並開始了對一些書目文本的數字化識別。

  如今,打開中國國家圖書館的網頁,專門有一欄是古籍,裏面整合了多個數據庫,讀者可以在此輕松搜尋多冊古籍。國家圖書館還聯合了一些社會力量,比如頭條新聞,來共同進行古籍數字化建設。此外,一些社會組織也整合了他們能夠找到的古籍資料,並進行數字化,比如國內著名的數字圖書館書格,日前迎來了8周年創建紀念日,其匯集的資源大多數來源于海外,包括哈佛大學圖書館、日本國立國會圖書館等,依靠的是這些機構的開放共用機制。

  但這對于專業讀者和研究者來説,顯然還不太夠。據悉,現在全國按照分級保護制度對古籍進行管理,分為國家珍貴古籍、省珍貴古籍和雙非(未入選前兩項)三級。其中,國家珍貴古籍的整理和數字化做得最好,但這部分古籍的比重很小,相當于金字塔尖,而且對外公開不夠。

  “雙非”普通古籍的數字化也存在頗多問題。據陳力介紹,除了古籍愛好者和研究者零星的數字化工作外,成規模的古籍數字化主要由三類機構進行:教學和研究機構、圖書館和商業機構。教學和研究機構的數字化對象選擇目的性較強,主要是根據教研工作需要來決定目標和方法,比如中國社科院就對《全唐詩》《先秦魏晉南北朝詩》等古籍進行過數字化;圖書館主要對其館藏進行數字化;商業機構數字化的內容由市場決定,因此常常會選擇大型叢書,如《古今圖書整合》《四庫全書》等。

  陳力告訴《環球》雜志記者,目前中國的古籍數字化存在的一大問題是焦點過于集中,重復建設。古籍的數字化集中于少數常用特別是叢書類的古籍,比如文淵閣《四庫全書》就先後有很多機構進行了影像、文本的數字化,像二十五史這類規模稍小但常用的文獻,數字版本更多。由于制作單位不同,各自利益不同,古籍數據庫往往是封閉的,在技術上很難與其他數據庫融為一體,造成知識體係的割裂。而且很多機構自行設定了相關的數字化加工與組織標準,行業缺乏通行的工業標準。

  四川省圖書館古籍部副主任杜鵑也表示,數字化是解決古籍保護存放與利用二者矛盾的根本技術手段之一,但當前國內古籍數字化程度較低。以四川為例,古籍數字化的比例僅為千分之五左右,且數字化文件格式類型多,標準不統一,在分辨率和色彩還原度等方面都沒有一致的標準。

“把古文字向量化”

  在缺乏統一標準的情況下,一部分人想的是:先做起來。“漢光重典”就是這樣一個頗具野心的項目,它分工明確:採集側把紙質書變為影印版,數字化生産側把影印版變為文字版,應用側為文字版增加檢索、字典和知識圖譜等研學係統,用現在人工智慧的術語來説,就是“把古文字向量化”。

  提到把影印版資料變成文字版,大部分人都能想到OCR,它是指電子設備檢查紙上列印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成電腦文字的過程。各大互聯網平臺推出的這類圖像變文字的軟件係統,對現代文字的識別率可以達到99.9%。但在古籍圖像面前,它的識別率只有40%甚至更低。

  原因是多方面的,首先古籍的載體極為豐富,包括紙、布、竹子、木頭、甲骨、石碑,不同載體上的字識別起來差別非常大。其次,就算寫在紙上,年代久遠的紙張不僅殘破變色,而且布滿斑點,排列復雜,中間可能還夾雜著各種批註。再次,隸書、楷書、草書、行書等多種手寫字體,一個人寫同一個字,可能也有多種寫法。

  “漢光重典”項目背後的技術人員嘗試解決這一問題的方法叫做聚類,就是把同一字的不同寫法聚到一起,重復的字不再進行標注,這是這一理念首次用于古籍領域。為此,四川大學專門組織了20多個歷史係學生來給字做標注。項目從2019年進行到2021年,3萬多字類再加上自適應演算法的幾輪迭代,才終于使識別正確率達到97.5%。

  識別正確率上升的同時,通過單字檢測、無監督單字聚類、小樣本學習、主動學習等機器學習方法,一套邊識別古籍、邊訓練模型的係統被建立起來。以一本100萬字的古籍為例,如果全靠專家錄入,每人1000字/天,需要1000天。如果用這套古籍識別係統,只需要35天,效率提升了近30倍。

  這與許多古籍數字化係統的開發殊途同歸,都是在從圖像裏識別單字,使之變成可編輯可檢索的東西。“在此基礎上,AI係統還可以做一些係統分析。人的語言使用是有習慣的,可能會經常使用某一個字或詞,比如用AI分析《紅樓夢》前80回和後40回,就可以通過資訊的分析、挖掘和統計來判斷後40回到底是誰寫的。”陳力説。

  “漢典重光”技術負責人、阿裏達摩院視覺實驗室負責人徐盈輝告訴《環球》雜志記者,目前全球范圍內還有大量中文古籍沒有實現數字化,用現存的古籍數據來構建一個超大規模文本的自學習語言模型,還沒有辦法做到,也就是説現在雖然可以進行單字單詞的全文檢索,但想要通過單字單詞進行相應關聯的搜索,挑戰仍相當大。

  徐盈輝希望,通過“漢典重光”平臺以及其他數據庫對公眾的免費開放,能夠實現全社會一起來研究和解決古籍數字化中的難題,讓古籍真正成為傳承中華文脈的骨幹。

來源:2021年9月22日出版的《環球》雜志 第19期

《環球》雜志授權使用,其他媒體如需轉載,請與本刊聯繫

本期更多文章敬請關注《環球》雜志微博、微信客戶端:“環球雜志”

 請注意:



·遵守中華人民共和國有關法律、法規,尊重網上道德,承擔一切因您的行為而直接或間接引起的法律責任。
·新華網擁有管理筆名和留言的一切權利。
·您在新華網留言板發表的言論,新華網有權在網站內轉載或引用。
·新華網新聞留言板管理人員有權保留或刪除其管轄留言中的任意內容。
·如您對管理有意見請向留言板管理員反映。

發表評論: 用戶名 密碼 匿名

 查看評論
放大字體
縮小字體
列印本稿
查看評論
推薦給朋友:
  相關新聞:
新華網版權與免責聲明:

 
凡本網注明"稿件來源:新華網"的所有文字、圖片和音視頻稿件,版權均屬新華社和新華網所有,任何媒體、網站或個人未經本網協議授權不得轉載、連結、轉貼或以其他方式復制發表。已經本網協議授權的媒體、網站,在下載使用時必須注明"稿件來源:新華網",違者本網將依法追究責任。
本網未注明"稿件來源:新華網"的文/圖等稿件均為轉載稿,本網轉載出于傳遞更多資訊之目的,並不意味著讚同其觀點或證實其內容的真實性。如其他媒體、網站或個人從本網下載使用,必須保留本網注明的"稿件來源",並自負版權等法律責任。如擅自篡改為"稿件來源:新華網",本網將依法追究責任。如對稿件內容有疑議,請及時與我們聯繫。
如本網轉載稿涉及版權等問題,請作者在兩周內速來電或來函與新華網聯繫。

訂閱本刊
本刊通用網址:環球雜志
  • 如果您對《環球》雜志的稿件有任何意見及建議請與我們聯繫。
  • 編輯部電話:
    010-63077031
  • E-mail:
    globe1980@vip.sina.com
  • 社址:北京市京原路8號新華社第二工作區
  • 郵遞區號:100040
  • 對外合作:
    010-63077015
  • 傳真:010-63073516
  • 總 編 輯:馮瑛冰
  • 執行總編輯:卞卓丹
  • 《環球》雜志
    新華通訊社主管
    瞭望周刊社主辦
    環球雜志社編輯出版
    ·全彩半月刊
    ·出版日期:每月1日/16日
    ·國內統一刊號:CN11-1273/D
    ·郵發代號:2-511
    ·國外郵發代號:SM341
    ·國內訂閱:
    全國各地郵局均可訂閱 本刊隨時辦理郵購
    ·全年訂閱價:192.00元
    ·國內零售:
    全國各大中城市報刊攤點/地鐵/機場/書店等均有銷售
    ·零售價:8.00元
    ·國外總發行:
    中國國際圖書貿易總公司(北京399信箱)
    ·海外定價:US $6.00元 HK $25.00