河北新闻>>本网原创>>

河北大学中华字库工程探访:他们给汉字填写“身份”信息

2019-04-18 04:23:01 来源:河北新闻网
进入移动版,省流量,体验好

河北大学中华字库工程探访

他们给汉字填写“身份”信息

■阅读提示

在河北大学,一间300平方米的工作室内,多名专家学者以及学生,正在参与进行一项规模浩大的汉字整理与考释工作——中华字库工程。这是一项国家重大文化建设工程,河北大学独立承担着明清图书用字的整理与考释工作。

什么是中华字库?我们已有《汉语大字典》《中华字海》这些大部头的字书,为什么还要对中华文字进行全面的搜集整理?

近日,笔者走进河北大学中华字库工程工作室,试图揭开中华字库工程的神秘面纱,同时也走近这群人,听他们讲如何让一个个沉寂在古旧书籍上的汉字,在数字媒体中找到新的安身之所,拥有新的“身份”信息。

帮生僻字寻找“身份”信息

图为清光绪刻本《蠕范》,其中“鼠占”“鼠靈”皆为“鼠突”字讹变。 河北大学供图

“这两个字念什么?你知道吗?”4月9日,窗外细雨蒙蒙,在河北大学中华字库工程工作室,负责人杨宝忠写下的两个字令笔者一头雾水。

只见纸上的这两个字,左边都有一个“鼠”字,不过“鼠”字右边还各有一个“占”字和“靈”字,写作“鼠占 鼠靈”。

见笔者摇头,杨宝忠笑着解释,在被奉为“辞书之祖”的《尔雅》中,有一篇《释鸟》曾详细讲过“鸟鼠同穴”的自然现象,“鸟鼠同穴,其鸟为鳥余,其鼠为鼠突”。然而,在历代传抄转录过程中,由于抄写错误,“鼠突”被一再误写,最终在清代李元所著《蠕范》中出现了“鼠占 鼠靈”二字。

第一个字,虽在《康熙字典》《汉语大字典》《中华字海》这样的大型字书中有收录,但被作为双音节词用字处理,至于读音,书中却未给出。第二个字大型字书都没有收录。

与这些令普通人直皱眉头,甚至大型字书中都未给出答案或没有收录的疑难字打交道,对它们追根溯源,辨析渊源流变,是河北大学文学院汉语言文字学教授杨宝忠多年来的主要工作。

人们的印象中,汉语言文字学这门学科,可能更多的是在“故纸堆”中埋头考究,而现在,杨宝忠正带领30多位老师和学生,参与一项解决中国目前在信息化、数字化中所碰到的瓶颈问题的重大工程。

走进工作室,只见大家伏案于一排排电脑桌前,全神贯注地盯着屏幕,电脑屏幕上是电子扫描版的竖排文字古文献,不少还纸张斑驳,字迹模糊。工作室忙碌而安静,只听见计算机的嗡嗡声。

“拟认同字、康熙部首、康熙附形部首等属性,以及读音、释义、字际关系等,这些都是一个字的‘身份信息’,我们的工作就是为这些从明清图书上找出来的生僻字填写一张完整的‘身份证’。”工作室成员、河北大学文学院徐世权博士,一边向笔者展示中华字库工作平台界面,一边向笔者解释他们的主要工作内容。

“我国现有的计算机字符集仅有7万多个,已无法满足时代需求。因此,国家启动了中华字库工程,将利用先进的信息技术手段,收集和汇总历代文献资源中出现过的汉字和少数民族文字,辨析源流衍变,确定每个字形的历史地位,建立汉字及少数民族文字的编码和主要字体字符库。”中华字库工程第15包项目管理办公室主任杨清臣介绍。

中华字库工程于2011年启动,完成之后的中华字库预计可编码字符数在50万左右。工程共有28个工作包,河北大学以独立承担的方式,获得第15包明清图书用字搜集与整理之三·文字整理与考释的分包任务,对约100万字形(楷体汉字)的疑难字进行辨识、整理和考释。

不久前,工作室刚刚向中华字库项目总体组提交了第四个节点——14万个字的整理与考释成果,当前正在为下一节点的工作进行紧锣密鼓的筹备。

而他们考释的生僻字“身份信息”,最终将被收进“中华字库”,然后提交给国际标准化组织,在电脑区位中给每个字编码,厂商再据此做出宋体、黑体、隶书等字体,最终进入计算机。

在这项国家重大文化建设工程中,河北大学能独立承担第15包的任务,得益于其在近代汉字研究方面的学术优势。

河北大学不仅发起举办了全国首届近代汉字学术研讨会,而且2018年成立的中国文字学会近代汉字研究会,就落户河北大学,杨宝忠和梁春胜分别任学会执行会长和秘书长。他们还创办了近代汉字研究的专业刊物——《近代汉字研究》。

“我们每天的工作就是研究生僻字。很多人并不觉得生僻字对我们的现实生活有何影响,但有的人就因为生僻字,连一张信息准确的身份证都无法得到。”在行唐县独羊岗乡公式村进行的一次实地考察,令杨清臣深有感触。

公式村的历史可以追溯到南宋时期,距今已有近千年历史。但苦于计算机打不出这个村名,当地村民的第一代身份证上的村名信息只能靠手工填写,而现在使用的第二代身份证,只能用“差取”二字来代表。

最难的是疑难字考释

从某种意义上说,在信息化、数字化时代大潮之下,不论是常用字还是生僻字,只有被纳入字库当中,才算找到了“家”。

在中华字库工程的计算机操作平台上,每个从上一环节递交过来的文字,都设有一个专属的号码,就像一个人的身份证号。工作室成员要做的,就是把这些汉字有名有姓地带回家,以便它们能信息完整地“居住”在字库这个虚构的网格式大厦里。

然而,这条寻“家”之路并不容易。

按照工作室的流程安排,一审主要是硕、博研究生对填写的内容进行互审,二审则是由教师对一审内容进行检查,二审解决不了的问题,则要进一步提交给杨宝忠、梁春胜二人“坐镇”的三级审核。

一般冲破重重关卡来到杨宝忠和梁春胜面前的,都是几轮考释仍啃不下来的硬骨头——疑难字。

杨宝忠解释,疑难字是个相对概念,指一般人不认识或认错的字,在普通人看来,它们的结构都复杂得令人咂舌。在大型字书里,有些字音义不全,标为“音未详”“义未详”或“音义未详”。有些字虽然音义俱全,很可能也存在注音、释义、字际关系整理等诸多错误。

因此,疑难字的考释,是中华字库工程最难也最见功底的领域。

当初,清代李元所著《蠕范》中出现的“鼠占 鼠靈”二字的考释,曾令杨宝忠颇费周折。

“鼠占 鼠靈?怎么念?什么意思?”凭借多年疑难字考释的经验,利用自己总结的疑难字考释方法和自己发现的近代汉字“异体部件替换”规律,杨宝忠联想到“鼠占鼠靈”很有可能就是“鸟鼠同穴”中的鼠名“鼠突”字?

循着这个思路,杨宝忠多方求证,最终弄清了“鼠占 鼠靈”二字的来历。

“在历代传抄转录过程中,很容易出现各种书写错误,这就需要我们根据汉字书写习惯和变异规律,结合上下文意思,顺藤摸瓜,追根溯源,考释出一个字的准确读音和含义。”杨宝忠解释,“鼠占 鼠靈”二字就是在传抄过程中,一错再错错出来的。

《山海经》郭璞注:“鼠名曰鼠突。鼠突如人家鼠而短尾……”一误作“鼠名曰鼠戾。鼠戾如人家鼠而短尾……”(中华书局影印本《太平御览》),再误作“鼠名曰鼠占。鼠戾如人家鼠而短尾……”(文渊阁、文津阁本《太平御览》),三误作“鼠名鼠占鼠灵”(《禹贡合注》),四又误改作“鼠占 鼠靈”,此《蠕范》“鼠占 鼠靈”所由生。

“《字汇补》以下大型字书收录‘鼠占’‘鼠灵’二字,既不能与‘鼠突’字加以沟通,又皆处理为双音节用字,均欠妥当。”杨宝忠最后得出结论。

考释,不仅要搞清楚一个字的音义,还意味着要抽丝剥茧,通过一个字形考释出一系列的疑难字,并建立字际关系。

正是通过这一系列的研究,杨宝忠最终构建了一个以“鼠突”为中心的矩形联系图,古籍中出现的“鼠戾”“鼠占”“鼠灵”“ 鼠靈”“鼠录”“鼠災”“鼠空”“鼠炎”“鼠犬”“鼠吾”“鼠奚”“突鳥”等都是“鼠突”变来的。

从1990年至今,杨宝忠一直从事大型字书的疑难字考释,近30年里,他考释的疑难字将近4000字。

近30个年头,不到4000字,两个数字对比,文字考释的个中艰辛不言自明。

考验学识和学养的积累

河北大学中华字库工程工作室主要成员,前排中间为工作室负责人杨宝忠教授。 河北大学供图

河北大学中华字库工程工作室以玻璃为隔断,辟出一间小型阅览室,占据工作室三分之一的空间。别看面积不大,却满满当当码放了整整13排、100多个大书架。

文津阁本《四库全书》《续修四库全书》《百部丛书集成》《域外汉籍珍本文库》《高丽大藏经》……在这里,几乎能查阅到项目研发所需要的各种古籍。

作为补充,阅览室一旁的电脑上,还装有一个文献检索包,收录着书架上没有的电子书,足有10多T。

这些都是为方便大家考释文字时查阅古籍准备的。

每天从早上8时到晚上10时教学楼关门,除上课外,工作室的成员几乎全都泡在这里,即使节假日和周末,也基本是这样,可谓名副其实地埋首“故纸堆”。

这样的工作节奏,很容易让人联想到“枯燥”这个词。

“表面看,我们一直是在做重复性工作,但实际上每天都是新的。”对此,杨清臣却自得其乐。

作为工作平台中的二级审核老师,杨清臣所谓的乐趣和成就感就在于,能在很多习焉不察的一审结果中寻获到“漏网之鱼”。

有一次,一级审核提交上来一个“氵艾 ”字。对这个字,一级审核并未发觉有何问题,而是根据正常流程,对其各项属性进行了标注,但杨清臣看到这个字却颇为眼生。

这个字出现在明嘉靖刻本《皇明疏议辑略》卷三十一《处置夷情疏》一文中:“又有一路从草坡出氵艾 州,一路从氵僚 泽壩出灌县,一路从清溪口出崇庆。”

“氵艾 州?从来没有听说过还有这个地方啊!”经过一番仔细查阅,最终,杨清臣的怀疑在文渊阁四库本《忠肃集》中得到了印证,“氵艾 ”应为“汶”。另外,“氵僚 ”即“僚”之加旁俗字。

“类似这样的错误,很多都是习焉不察的,在这种地方能产生怀疑的,就是高手。”徐世权说。而能像导师杨宝忠一样,由“鼠占 鼠靈”找到一个系列的字形,构成矩形系联,形成宏观观察,则令徐世权神往,“这就是我们搞语言文字学追求的最高境界。”

在长期疑难字考释实践中,杨宝忠在前人“形音义三者互相求”的考字方法基础上,提出“形用义音序五者互相求”“五者之中,形最重要”的考释方法,使疑难字考释成为有规律可循、有方法指导的科学。从一堆“故纸”中理出头绪、解决问题,考验的是能力。能从中有所怀疑,更考验学识和学养的积累。

触发怀疑的机关,要建立在大量阅读基础之上形成的“语感”。

1982年,杨宝忠本科毕业留校后,宿舍和中文系资料室在一层楼,杨宝忠曾以一天一本古书的速度,在六年多的时间里差不多读完了资料室所藏的先秦两汉古书。

在近30年的大型字书疑难字考释中,杨宝忠把《汉语大字典》(八卷本)第一版通读3遍,《汉语大字典》(九卷本)第二版通读一遍,《中华字海》通读4遍,而且是将两本大型字书一个字一个字对照着读。

苦行僧式的阅读经历,使杨宝忠俨然一本“活字典”,很多字的源流衍变信口拈来,如数家珍。

相比老一辈主要靠翻阅纸本古书,杨清臣和徐世权以及他们的学生们更多地是利用电子文献,有了更便捷的阅读手段。

虽然由于字库不全,目前的古籍信息搜索还有颇多不便,但工作室还是通过购买和自主研发两种渠道,建立了专门的古籍信息数据库,借助搜索技术,输入相关搜索内容,几秒内便能把相关文献搜索完毕。

不过,不论哪种模式,都需要坚持。

虽然杨宝忠平时不苟言笑,要求非常严格,但打心眼儿里,他对这些青年学者们严谨踏实的学术态度深感欣慰。在他办公室一旁的角落里,放着几副羽毛球拍和乒乓球拍,对于学习,杨宝忠从不多言,反而总是赶着大家多运动。

“搞学术在外人看来很辛苦,但做出来特别有成就感。就像在海边捡贝壳,在那么多好认的字里找着一个难认的,就像捡着一个特别漂亮的贝壳。”说着,本略显拘谨的杨清臣举起双臂,嘴角扬笑,“那种如获至宝的心情,就想手舞足蹈地跳起来!”  (记者 周聪聪 通讯员 于冬伟)

■相关

数字时代的中华字库

由于字库不全,行唐县独羊岗乡更差更取村村民的第一代身份证上的村名信息只能靠手工填写。 河北大学供图

你知道吗?电脑屏幕上显现的每个字符,都对应着一个被国际标准化组织正式认证的区位编码。字符编码汇聚的地方,被称为字库。

我国现有的计算机字符集仅有7万多个,已无法满足时代需求。着眼这个问题,我国启动了中华字库工程。

对很多人来说,“中华字库”还是一个陌生的名词。

据了解,我国当前有很多大型字书,2010年版《汉语大字典》共收入60370字;《中华字海》是当前大陆收入汉字最多的,1994年版收入85568字。

虽然听起来这个数量已经足够庞大,但对于我国卷帙浩繁的文献资料中的实际用字,对于不同时代不同地域社会生活中的实际用字,它们仍不能满足需求。

此外,这些字书对甲骨文、金文、小篆和隶书等古代文字形体,以及许多少数民族文字,并未全面整理或涉及。

与之前已有的文字整理工作相比,中华字库工程的优势还在于,其文字整理将面向出版及网络数字化需求。

其实,这也是古老汉字遇到的新问题。

在过去,很多资料都通过手写,并不会对生活造成太大困扰,但近年来,随着计算机的普及,绝大多数资料都需要电子化录入。

小到自然资源、地名、人口等清理普查,大至国家的经济、地理空间等战略性、基础性的信息库建设,还有公安、民政、金融、保险、海关、民航等行业的信息服务与监管存在很大的用字缺口。

中华字库研发的目的是建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术。完成后的“中华字库”,预计可编码字符数在50万左右(汉字古文字约10万、楷书汉字约30万、各少数民族文字约10万),力争达到能对我国所有的出土、传世文献和当代文字作品进行数字化处理,全面打通信息化的发展瓶颈,使中华各民族文字的使用、中华文明的普及与传播,更加方便和高效。

而与中华字库工程类似的工作,世界各国非常重视。

欧美一些国家甚至把当地的土著文字、古代表意文字等一些极为罕用甚至早已“死亡”的文字,都加入了国际编码,使本国本民族的历史文化得以在网络上流传,展示国家的文化实力。

因此,中华字库工程对引领中华文化步入信息化、数字化时代,提高中国文化“软实力”,有着非同寻常的意义。

文/记者 周聪聪

责任编辑:张永猛
更多精彩内容请关注
			河北新闻网
			官方微信
			
			河北日报
			客户端
			

相关新闻

电子报
网站首页 我要评论 分享文章 回到顶部