
摘要:中医古籍,数字化生僻字的处理,是一项基本而又关键的技术,目前普遍存在缺字的现象,给中医古籍的阅读和研究造成障碍。本文分别从“字符集、字库、输入法”等方面,分析了集内字缺字产生的原因和解决方案,并探讨了集外字的处理方法。
中医古籍,承载着祖国医学数千年文明的绵延,是中医学传承、发展、创新的源头活水。中医古籍数字化,可以通过全文录入与网络共享,解决中医古籍作为一种不可再生资源而存在的借阅困难、容易损伤的问题,对比传统的手工检索,又极大地提升了查询的效率,使中医古籍得到了更广泛和更有效的利用,近年来颇受重视,发展迅速。在数字化进程中,对生僻字的处理,直接影响到古籍阅读的质量和检索的效果,目前存在的问题主要是缺字现象。对于传统的纸质版发行与单机版的数字化,缺字可以通过自己造字或图片替代的方案解决。但是对于全文网络版数字化,使用自造字会在通用性上受到限制,而图片替代则导致检索困难,其解决方案需要进一步的研究与探讨。
一、字符集与编码:
字符集,是各种文字和符号的集合,如包含英文字母的ASCⅡ字符集、包含简体中文的GB2312字符集、包含繁体中文的BIG5字符集等。计算机要准确地处理各种字符集文字,需要对字符进行编码,以识别和存储各种文字。随着中文信息处理技术需求的不断发展,国家标准总局了一系列的“信息交换用汉字编码字符集”。但由于各国文字都有自己的字符集编码,不同编码体系之间码位重叠,相互引起冲突,在Web等多语言环境中,就会造成无法使用或出现乱码。
Unicode,作为国际组织制定的可以容纳世界上,所有文字和符号的字符编码方案,也称:统一码、万国码,实现了跨语言、跨平台的文本转换及处理。Windows、Linux等主要操作系统及.Net、Java等主流编程语言,都提供对Unicode编码的支持。目前,Unicode字符集包含了7万余汉字,并且仍在不断地扩充中[1]。所以从理论上讲,只要在字符集中存在的字符,就可以被显示,而集外字符,则形成缺字现象。但事实上,很多中医古籍数字化系统的集内字也存在大量缺失,一方面是因为采用相对较小的字符集编码存储汉字,另一方面主要还是由于字库与输入的缺失造成的。
二、字库与显示:
字形是字符呈现的形状,按照一定的编码顺序以矢量或点阵等方式存储在字库中,不同的字库表现出不同的字体。以Windows操作系统为例,当计算机需要显示一个字符时,首先识别该字符被存储的数值代码,然后将此代码转换为Unicode编码,再根据此编码到指定的字库中寻找对应的字形,最后将字形显示在屏幕上。如果字库中没有该字符对应编码的字形,则以缺字的符号显示。如常用的“宋体”、“楷体”、“黑体”等字库,其编码范围都在Unicode码位的4E00~9FBF区2万余汉字内,因此对于20000~2A6DF等区域的汉字就不能进行显示,而“方正超大字符集字体”、“海峰超大字符集字体”等支持Unicode超大字符集的字库就可以正确显示7万多汉字。
应用网络版中医古籍数字化系统的用户,其计算机上不一定装有支持超大字符集的字库,因此即便是服务器上的文件系统都使用Unicode字符集编码存储,在用户的计算机上仍然不能显示相应的字符而表现为缺字现象。这个问题可以通过提供相应字库下载的方法得到解决。
三、输入方式的选择:
在确定字符集编码存储方式和选择正确字库后,仍然会有大量的缺字现象出现在各种古籍数字化项目中,主要原因在于输入阶段的不可控性。因为中医古籍的数字化进程,是一个长期、大型的多人协作项目,无论是通过人工打字,或是OCR软件识别,都会存在录入与校对人员素质的参差不齐,使得一些不常见到、难以辨认音义的生僻字被直接忽略,或是做上标记等待后续处理。而通用的输入法,如“搜狗、百度、紫光”等,并不支持4E00~9FBF区以外的汉字输入,所以在古籍数字化处理过程中,就会出现很多所谓打不进去的字。因此,当碰到一个难以输入的字符时,可以换用一些支持Unicode超大字符集的输入法,如逍遥笔、海峰五笔等,也可以使用一些在线工具,如汉典网、书同文巧笔等。虽然输入方式的选择本属于细枝末节,但这一环节对于古籍全文录入的质量控制,却有着至关重要的影响,不可轻忽。
通过上述步骤,正确使用字符集、字库和输入方式后,中医古籍数字化中常见的缺字现象,如“白”、“胀”、“痛”、“咀”、“虫”、“解”、“虫”等属于Unicode字符集CJK统一表意符号扩展A、扩展B区的生僻字,都可以正确地输入、显示与检索,大大减轻了数字化系统对缺字处理和管理的难度。
四、集外字的处理:
由于任何字符集与字库的收字范围,都有一定的限度和时间性,故对于超出现有Unicode字符集的字符,需要有缺字处理方案,能够既满足现阶段实际应用,又可以随着字符集的扩充而自动替换。遗憾的是,下列所述4种缺字处理方案,都有各自的不足,需要进一步完善。
1、使用私用区造字法:
Unicode,在基本面E000~F8FF私用区、辅助面F0000~FFFFD增补私用A区、100000~10FFFD增补私用B区,设置了13万余码位,用于集外字的造字编码。这个方法在提供所造字字库的情况下,能够与文中其他字符无差别地显示所造汉字,并支持检索,因此很多商用古籍数字化项目都使用这种方法。但如果用户同时使用多个数字化项目,并需要对这些项目的数据进行利用整合,则会引起私用区编码的冲突,产生张冠李戴的字形显示,或对同一字符重复编码,造成混乱。在互联网模式下,私用区造字法存在通用性上的不足。
2、图片替代法:
使用插入集外字符的字形图片,可以得到正确的显示,也可以进行数据整合,是一种较为简易快捷的方法。但存在难以检索、字体格式与文中其他字符难以保持无差别显示的不足,限制了此法的应用。
3、自然语言描述法:
使用在规定标记内自然语言描述集外字符的方式,如(左足右行)、(上山左下弓右下殳)等,一般用于生僻字输入的预处理阶段,可以粗略地满足输入、显示和检索的需求。但这只是一种非正式、非常规的替代方案,毕竟在显示上与原字符存在差距,而且自然语言在描述上有较大的随意性,故检索的不确定性也随之增加。
4、动态组字法:
Unicode,在2FF0~2FFB区定义了12个表意文字描述符,使用这些标准化的描述符序列,对汉字的构造进行说明,解决了自然语言描述法的不规范性,并可利用动态组字软件输出所描述字符的字形。动态组字法[2]可以解决集外字的输入、显示与检索,但需要额外的软件支持,并且字形与原字符也存在一定的差距。
上述的几种方案都存在着某些局限性,目前尚没有一种很好的方案可以综合解决集外字的缺字问题,需要根据不同的应用环境灵活选择。
五、研究支持功能:
通过以上几种方法,基本可以满足,以阅读和一般检索为主的中医古籍,数字化系统的需求。但由于生僻字的难读、难懂,且存在大量的异体字、俗体字等字形变化,给研究者造成阅读和理解的障碍,所以还需要一定的研究支持功能,完成对生僻字的音义注释、异体俗体字间的相互转换,做到可以索引并重复使用,避免重复注释的繁琐劳作和遗漏。这些功能可以通过字词间的动态映射表完成。
总之,中医古籍数字化建设中,生僻字的处理是一项基本而又关键的技术,需要前期输入的改进与后期研究功能的支持,需要进行不断的完善,使中医古籍数字化规范化发展,使中医古籍作为中医药知识宝库,更好地发挥指导临床和新药研发等社会效用。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。股票怎样杠杆提示:文章来自网络,不代表本站观点。