“查無此字”:數字時代的“書同文”難題何解-新華網
新華網 > > 正文
2025 07/18 09:38:07
來源:新華每日電訊

“查無此字”:數字時代的“書同文”難題何解

字體:

  目前國內信息系統普遍能無障礙處理的漢字僅2萬出頭,這意味着最新強制性國家標準收錄的近10萬漢字,超七成都是生僻字

  人名、地名、方言、古籍中都有生僻字。目前戶籍系統中人名生僻字接近5000個,據媒體報道,有專家估計,全國約有6000萬“姓名生僻字人”。這些人被信息系統“拒之門外”,在數字化時代,處處遭遇掣肘。如果算上地名、方言、古籍中的生僻字,可能受影響的規模更大,涉及的領域更廣生僻字困境,源自40多年來快速信息化産生的“技術欠債”。近年來,隨着一大批生僻字被補錄進強標,這個老大難問題理應迎刃而解,但現實並非如此

  25歲的文辰(上部為龍,下部為天)未曾料到,名字裏意為“飛龍在天”的“(上部為龍,下部為天)”字,反讓自己在數字化浪潮中“龍困淺灘”。

  但凡和實名制相關的場景,他都可能陷入“系統無法識別”的困境。上學、就醫、通信、網購、出行……別人在手機上點幾下就能辦妥的事,他都得大費周章。

  “(上部為龍,下部為天)字看似結構簡單,但對國內信息系統來説,卻是個生僻字。生僻字常被簡單歸結為“字形複雜、鮮為人知”的字,但實際上是信息系統“不認識”的字:輸入法敲不出,界面顯示不出,打印機打不出,核驗比對通不過。

  工業和信息化部電子工業標準化研究院(下稱電標院)做過測試,目前國內信息系統普遍能無障礙處理的漢字僅2萬出頭,這意味着最新強制性國家標準(簡稱強標)收錄的近10萬漢字相比,超七成都是生僻字。

  人名、地名、方言、古籍中都有生僻字。中國科學院軟體研究所高級工程師劉匯丹介紹,目前戶籍系統中人名生僻字接近5000個。據媒體報道,有專家估計,全國約有6000萬“姓名生僻字人”。這些人被信息系統“拒之門外”,在數字化時代,處處遭遇掣肘。如果算上地名、方言、古籍中的生僻字,可能受影響的規模更大,涉及的領域更廣。

  生僻字困境,源自快速信息化産生的“技術欠債”。近年來,隨着一大批生僻字被補錄進強標,這個老大難問題理應迎刃而解,但現實並非如此。

生僻字字墻。受訪者供圖

 查無此字

  江西上饒的萬(左部為王,右部為樂),僅僅是不同證件上就有不下8個“名字”:萬瓅、萬LI、萬王樂、萬Li4……五花八門。已過不惑之年的他,對這堆“名字”很無奈。

  真名亮不了相,只能怪“(左部為王,右部為樂)”字太生僻。辦事員打不出來,就用拆字、拼音、繁體字,甚至找個長得像的字替代——能用的法子全用上了。從2002年高考報名“查無此字”開始,這個帶“樂”的字,23年來給他帶來一堆“苦”。

  數字化浪潮還沒到來的那些年,實名制要求也沒那麼多,他的麻煩處於“潛伏期”。靠着各種“花名”,或用家人的名義辦事,勉強還能混過去。可這幾年,處處都要實名制,那些“花名”全不管用了。他辦事處處碰壁,連“我是我”都證明不了,幾乎寸步難行。

  很多像他一樣的“姓名生僻字人”,實名電話卡、銀行卡、社保卡辦不了,工資領不到,公積金取不出,退稅退不了,醫院挂不上號,學籍認證不了,坐高鐵乘飛機都得提前開證明……整個兒被擋在數字生活大門外!

  北京姑娘姜(寒字下部兩點改為鳥)吟查公積金時傻眼了:工作過的4家單位信息系統都打不出“(寒字下部兩點改為鳥)”字,愣是拼湊出好幾個“花名”,對應着好幾個公積金賬戶!她想把4個賬戶合併成1個,往公積金中心跑了十幾趟,反復證明“我是我”,跑斷腿、磨破嘴才辦成。

  “名字中的(寒字下部兩點改為鳥),取自李白《秋夜於安府送孟讚府兄還都序》中的‘鴻(寒字下部兩點改為鳥)鳳立,不循常流’,意思是高飛。沒想到沒飛起來,卻讓我摔了個大跟頭!”姜(寒字下部兩點改為鳥)吟嘆道,“社保、養老金、學歷認證……處處是坎,我折騰不起了,也不想再折騰了。”

  廈門的單親媽媽張(左部為王,右部為樂)旋沒想到自己名字的麻煩還殃及孩子——孩子名字沒生僻字,可從辦出生證、打疫苗到上學,但凡要填家長名字的時候,系統總通不過。

  不少“姓名生僻字人”無奈改名換姓。2023年,雲南麗江一個傈僳族村寨,全村的(上部為鳥,下部為甲,鳥少一橫,nià)姓村民改姓“鴨”,幾百年的“以鳥為圖騰”的氏族文化,差點失傳。在陜西,不少“(上部為畝,下部為心)”姓無奈改為惠。雲南的“(上部為此,下部為夕)”姓也無奈改為“所”或“索”。“改姓意味着背叛祖先,是最忌諱的,也是最痛苦的。”來自雲南的(上部為此,下部為夕)宏説。

  那些改名換姓的人,麻煩並未因此消失,戶口簿裏的生僻字“曾用名”,時不時會冒出來添堵,比如,升學、求職、辦保險……

  除了人名,生僻字還常出現在地名、古籍和方言裏。今年全國兩會,全國人大代表劉建明建議,把浙江紹興(左部為,右部為央)(左部為犭,右部為茶)湖中的(左部為,右部為央)、(左部為犭,右部為茶)兩字納入強標。(左部為,右部為央)(左部為犭,右部為茶)湖得名於湖中一種叫(左部為,右部為央)(左部為犭,右部為茶)的小魚,有八九百年的歷史了。因(左部為,右部為央)(左部為犭,右部為茶)均為生僻字,在相關政策規劃、文旅宣傳中,只能拆成“犭央犭茶”。

  山東泰安的石(上部為分,下部為石)社區居民也覺得憋屈。村名用了400多年,既有遍地泰山石的含義,又包含老祖宗“分石見玉”的手藝,如今改成“石蠟”,居民們常用的還是“石((上部為分,下部為石))”!社區幹部宋紹嬌直搖頭:“老祖宗造的‘((上部為分,下部為石))’字,智慧着呢!改為蟲字邊的‘蠟’,我們村的歷史不就斷了嗎?”

  同樣被改名的,還有山東日照的古村(左部為冫,右部為口)子村、石家莊的東(左部為更,右部為差) (左部為更,右部為取)村、廣東英德的下(左部為石,右部為太)鎮……每個地名生僻字涉及數百至數萬人,這些字存在於人們的日常書寫與口語中,卻無法進入數字世界。

  中華書局古聯(北京)數字傳媒科技有限公司古籍實驗室主任蘇瑞欣,從事古籍數字化工作已有10年。“古籍數字化,就是採用數字技術,將古籍文獻中的文字、符號、圖形轉化為能夠被電子計算機識別的數字符號。”她對生僻字困境深有體會,“我們啃古籍,每千字就能碰上倆生僻字攔路。這些年攢下的生僻字,少説也有兩萬個。就是這些字,愣是卡住了古籍數字化的脖子,絆住了文化傳承和傳播的腿。”

  “每一個生僻字姓名、地名、方言的背後,都能挖掘出一段獨特的歷史和文化,蘊藏着‘我們從哪來’的密碼,帶着強烈的文化和情感認同,更是傳統文化的重要組成部分。”紹興市非遺保護協會會長、紹興文史研究館副館長何俊傑説,“為圖省事,貿然改動、消除生僻字,把它們排斥在數字化大門之外,都是不可取的。”

  “老GBK”還在用

  一個生僻字如何才能進入信息系統?得先有“身份證號”——編碼。

  電標院中文信息研究室主任黃姍姍打了個比方:“字就像人,編碼是身份證號,字形就是照片。不同字體就像同一個人穿着不同衣服。可電腦認字不‘看臉’,只認編碼。沒編碼的字,系統根本不認識。”

  教電腦“認字”,我國從1980年發布《信息交換用漢字編碼字符集》(簡稱GB 2312)就開始了。初代漢字“身份證號”,只發了不到7000個,根本不夠用。1995年,GB 2312升級為《漢字內碼擴展規範》(簡稱GBK),漢字“身份證號”擴展到2.1萬個。

  隨着國際信息交流越來越頻繁,1993年全球通用的統一碼(Unicode)橫空出世,意在為全世界的文字搞個“聯合國編碼”。其中漢字部分的編碼標準為中日韓越統一表意文字編碼(簡稱CJKV),最初收錄的漢字只有2萬出頭,被稱為基本集。此後,在此基礎上,以擴充集的形式增補漢字,目前已從擴充集A增至擴充集I,已收錄近10萬漢字。

  我國的漢字編碼工作採取“國際標準先行,國家標準同步”的方式進行。2000年,我國強標《信息技術 中文編碼字符集》(簡稱GB 18030)發布,收錄基本集和擴充集A;又經2005年和2022年兩度修訂,目前已對齊Unicode擴充集I。

  對於一個生僻字來説,能獲得“身份證號”並不容易。黃姍姍介紹,從挖掘發現、文獻考據,到向國際標準化組織遞交提案,再經各個國家和地區代表的多輪討論、審定通過,整個過程即便順利,也得3至5年。

  更讓人頭疼的是,國內標準同步國際標準也面臨一系列複雜的流程。2022年新強標修訂發布與上一次相隔就達17年之久。

  “新強標收錄近10萬字,覆蓋我國絕大部分人名、地名用生僻字以及文獻等專業領域的用字,能夠滿足各類使用需求。”黃姍姍説。

  然而,不少人仍向記者反饋,這個被寄予厚望的新強標發布幾年後,“生僻字困境”並未徹底解決。

  目前我國不少信息系統仍在使用30年前發布的GBK。很多生僻字即便千辛萬苦擠進國標,面對使用GBK的老系統,照樣變成“?”。

  關注“姓名生僻字人”的全國人大代表、全國&&副會長周琪調研發現,很多地方的人社、醫院、保險、證券、電信、民航、交管等系統還是只認GBK,個別系統甚至只支持45年前發布的GB 2312。

  “GBK不是正式國標,只是個指導文件,早在2000年就被廢止了。然而,很多大學教材還在以GB 2312或GBK為標準,而一些技術人員在開發系統和軟體時,仍默認使用GBK。”周琪説。

  曾有“姓名生僻字人”想在相關部門的官網上留言,希望加快解決生僻字困境,卻根本無法反映,因為被卡在實名註冊環節。劉匯丹解釋,不少部門官網或業務系統實名註冊時,只支持GBK內2萬多個漢字。

  (左部為冫,右部為口)子村支書付冠強告訴記者,經過村民十多年的努力,(左部為冫,右部為口)字已被納入新強標,但相關部門的系統遲遲不升級,村名遲遲恢復不了。“就差臨門一腳了,大夥只能幹着急。”

  各“字”為“正”

  系統遲遲不更新,又急需用生僻字,怎麼辦?一些機構只得造字應急。

  劉匯丹解釋,編碼的國家標準和國際標準都劃定了“自留地”(私用用戶區,PUA),允許用戶造字。但因此帶來的副作用也不小:不同機構造的同一個字,編碼可能不同;即使同一機構,不同的人造的同一個字,審核不嚴也可能出現“一字多碼”。

  2004年,公安部開始換發二代身份證,但戶籍系統只支持GBK。一代身份證允許手寫生僻字,而二代身份證只能機打。為了解決身份證和戶口本人名、地名生僻字的錄入和打印問題,戶籍管理部門在系統裏造了4700多個生僻字。

  中國社會科學院語言研究所《新華字典》編輯室編輯姚越坦言,《新華字典》也使用了自造字,很多人取名翻字典,找的字也可能是生僻字,比如,前文提到的文辰(?龍天),名字就源於父母翻《新華字典》。

  《新華字典》《現代漢語詞典》裏的生僻字。新華每日電訊記者張典標攝

  “自造字不嚴謹,誰都可以造。”一家銀行信息技術部門的負責人何建説,自造字只是權宜之計,在機構內部單機或單個系統內臨時使用沒問題,但不宜對外使用、交換、傳輸。等日後有了正式編碼,自造字理應剔除,及時“轉正”,避免“一字多碼”。

  而現實是,自造字“遍地開花”。各地各部門“閉門造字”,編碼各搞一套,都強調以自己為準。結果數字世界一團“亂碼”:“(上部為龍,下部天)”字多出3個“兄弟”,“(左部為王,右部為樂)”和“(左部為韋,右部為華)”都是“六胞胎”!模樣都差不多,系統卻當作不同的字。

  更讓人頭疼的是,各個機構造字用的編碼一直未公開,究竟造了哪些字,外界也不得而知,也堵住了這些生僻字正常“轉正”的路。

  國內一家輸入法公司曾“另起爐灶”,自造400多個生僻字,結果添了亂。用戶用這個輸入法打“(左部為王,右部為樂)”,在戶籍系統就變成了“(上部為廣,下部為英)”;輸入“左部為韋,右部為華)”,戶籍系統蹦出來個“左部為山,右部為含)”。

  “一字多碼”“一碼多字”現象直接阻礙了信息跨系統流通,有時竟出現一家單位內部的不同系統都互不相認。當事人也懵圈:“以前是壓根打不出字,現在字打出來了,系統倒打起架來了?”

  蘇瑞欣也犯愁:“我們在古籍數字化工作中,對付生僻字也用自造字,但不支持跨&&、跨系統閱讀,換個系統就亂碼,不利於文獻流傳、文化傳承。”

  在她看來,很多生僻字是打開古代社會文化的鑰匙,也藏着老祖宗的智慧。她舉例説:“清代戲曲選集《綴白裘》中有個‘(左部為扌,右部為虐)手(左部為扌,右部為虐))腳’,(左部為扌,右部為虐))是生僻字,我們審查文意之後,認為(左部為扌,右部為虐))與躡同義。從這個字也能窺見古人造字的巧思。”

  她介紹,中華書局正在給古籍裏的生僻字辦“正規身份證”——向國際標準化組織提交未編碼生僻字,讓古籍更完整進入信息系統,追趕上數智時代,甚至被AI讀懂,更好實現傳統文化傳承與傳播。

  何建建議清理整頓自造字亂象:“各個機構先理清自造字&賬,沒有正式編碼的字,盡快收錄進國際標準和國家標準;有正式編碼的,抓緊‘轉正’,只有這樣才能實現數字化時代的‘書同文’,即一字一碼、互聯互通,打破生僻字困局。”

  “紙上強制”

  早在新強標GB 18030-2022實施前,不少“姓名生僻字人”已經開始“自救”。

  骨子裏有一股“不服周”勁頭的文辰(上部為龍,下部為天),2020年開始爭取在身份證上“正名”,逐個攻破銀行卡開戶、微信、駕駛證等難關,至今已經解決九成以上的生僻字難題。

  “身經百戰”的他,常在“姓名生僻字交流群”裏當“客服”,已幫助不下200個“戰友”。

  “個人問題如果能推動業務部門系統升級,這是最理想的。但有的機構選擇‘打補丁’的方式,只解決單個人的問題,而不升級系統,結果是治標不治本。”他感慨,並非每次努力都有效果,“有的系統不支持生僻字,反饋了六七年,一直沒進展”。

  在個人“自救”同時,一些地方和行業也在嘗試改造業務系統。

  2021年,上海通過集中採購公安人口信息專用字庫,建立生僻字雲服務&&,對群眾常見服務事項涉及的信息系統進行生僻字改造。目前,上海社區事務受理中心受理的190個事項中,七成以上可支持生僻字。

  然而,參與改造的上海市經信委工作人員李澤坦言:“很多信息系統是國家層面的垂直系統,上海沒法改,能改的只是上海市內的系統。”

  李澤還提醒,一個地方有成千上萬個信息系統,盤根錯節。越是信息化程度高的地方,改造難度反而越大。要提前規劃,多個關&&統必須同步改造。

  在金融領域,2022年6月,央行發布《金融服務生僻字處理指南》,要求業務系統滿足目前對人名、地名生僻字的使用需求。這一年,很多“姓名生僻字人”領到了自己第一張實名銀行卡,能夠正常轉賬、取款、換匯。目前建行、中信、招商等100多家銀行已能夠基本支持生僻字處理。

  但參與編寫《金融服務生僻字處理指南》的何建透露,很多地方銀行業務系統仍處在“隱秘的角落”,不支持生僻字。

  顯然,數字化時代,生僻字困境絕非僅憑一地、一行之力就能徹底解決,必須全國一盤棋——用同一套編碼,鋪一條互聯、互通、互認的“信息高速路”!

  新強標分為三個實現級別,對不同行業作了不同的規定:所有具備中文信息處理和交換功能的産品,均應滿足包含2.7萬餘字的級別一;級別二比級別一多出196個字,操作系統、數據庫管理軟體等系統軟體和支撐軟體應實現這一級別;而所有的政務服務和公共服務的信息技術産品和信息系統,均應實現包含近10萬字的級別三。

  然而,不少部門仍“按兵不動”,沒有採納已實施的強標。萬(左部為王,右部為樂)曾亮出手機裏的新強標去某櫃&&事,得到的回復卻是“沒聽過國標,我們內部有一套自己的標準,得按我們的來”。

  在某支付&&從事標準化工作的技術專家路波一語道破:“強標本該長牙齒,如果有機構不執行,應該由監管部門處罰,但目前GB 18030-2022由誰來監管,如何處罰,尚未明確。從效果上看,這個強標仍停留在‘紙面強制’上。”

  “但GB 18030-2000發布也有25年了,很多機構沒落實,也沒見到誰被罰。”路波無奈地説,如果這一“技術負債”再拖,代價只會越大。“就像給信息系統看病一樣,不能諱疾忌醫,小病拖大。”

  周琪建議,相關部門應加強監管,定期收集和巡檢市場上的産品和系統,對不達標的産品和系統限期整改或下架處理。

  參與新強標修訂的劉匯丹認為,強標難落地的另外一個原因,是很多公共服務機構認為,為了幾個生僻字而改造業務系統不划算,甚至“吃力不討好”。

  黃姍姍介紹,目前信息系統的生僻字改造,在技術上已有可借鑒的路徑,成本也從幾年前的數百萬元降到如今的百萬元以內。

  生僻字關乎社會民生,也關乎歷史文化傳承。“徹底解決生僻字困境,需要多個部門合作,統籌推進,讓數據多跑腿,群眾少跑路。”劉匯丹説。(應受訪者要求,何建、李澤、路波、姚越均為化名)

【糾錯】 【責任編輯:王頔】