手机看中经经济日报微信中经网微信
当前位置     首页 > 新闻 > 经济日报稿件 > 正文
中经搜索

“汉字全息资源应用系统”正式上线

2019年01月11日 22:35   来源:经济日报-中国经济网   

  经济日报-中国经济网北京1月11日讯 (记者 陈莹莹)1月11日,教育部“奋进之笔”行动、国家语委重大基础资源建设项目“通用汉字全息数据库建设”的标志性成果“汉字全息资源应用系统”发布会在北京师范大学举行。

  项目由北京师范大学中国文字整理与规范研究中心、汉字研究与现代应用实验室负责实施。教育部语言文字信息管理司副司长刘宏、北京师范大学副校长郝芳华出席发布会。北京师范大学教授、博导、著名训诂学家王宁,该项目主持人、北京师范大学文学院教授王立军与著名文化学者、北京师范大学教授康震共同启动系统上线仪式。

  王宁教授代表设计和制作团队介绍了“汉字全息资源应用系统”的三个理念。

  首先是属性的分解。她说,项目以推进语言文字信息化建设为主要目的,运用现代中文信息处理技术来构建一个多角度关系的汉字实用数据库。从上世纪90年代开始,王宁就和团队一起总结汉字的属性,不仅有传统的形、音、义三方面属性,还增加了码和用。由于汉字的简化,简繁体之间存在“一对多”的情况,“用”就成为汉字不可不关注的属性;汉字进入计算机后以“内码”的形式存储,又以“交换码”调用,所以“码”也成为人机对话不可或缺的属性。确立5大属性后,王宁和团队做了大量的属性细化研究,将笼统的汉字个体资源库,改造为汉字的属性库,解决了关联的多角度问题。

  其次是层次的确立。在《通用规范汉字表》的研制中,王宁和团队采用了两个大型语料库,证实了周有光先生提出的“汉字效用递减率”,也就是说,汉字字频逐步降低,对汉语语料的覆盖率越小,应用的效用也就越小。之后,这个原理被用在《古籍印刷通用字字形规范》项目中,以确定古籍印刷通用字的字数和字集。汉字的UNICO编码尽管已经扩充到8万多字,但其中有实用价值的字不超过36000个。所以,在这个项目中,团队将汉字分为常用、通用、适用、罕用和无用5个层次,把无限的关联变成可以操作的有限关联。

  第三是中介的寻求。项目要求既有现代汉字,也要关联古文字和多种字体。汉字是表意文字,形制相同又共时的汉字各自成为系统,无法完全对应。比如,甲骨文记录的是卜筮语言、金文和战国文字多为应用器皿的铭文,并非自然语言的现实,而现代汉字是现代汉语的书写载体,与古文字的对应更是难以全然实现。为此,团队继承了传统语言学的研究成果,以《说文解字》的9353小篆和10516字样为中介,不论何种联系,凡是不能直接实现的,都以《说文解字》小篆为中介来关联。

  “汉字全息资源应用系统”结构分为深层结构和表层结构两级模式,并建立有机系联。在深层结构层面充分考虑《说文》、古文字、繁体字、简化字、传承字之间的复杂关联关系;在表层结构以常用字集、通用规范字集、古籍印刷通用字集等不同级别的字集作为呈现模块,解决了不同发展阶段汉字之间的对接问题。

  “国家语委给了传统语言学文字学的研究队伍一个队传统创造性转化的尝试机会,学校也给了我们一个交叉学科的研究和应用平台。”王宁说。

  开展通用汉字全息数据库建设,不但服务了文化强国建设,更好地展示汉字的发展及其文化内涵,促进汉字文化发扬光大;也服务了教育现代化,提高汉字教育质量,促进民族地区国家通用语言文字教育;服务了语言文字事业发展,促进语言文字的规范化、标准化和信息化。

  上线后,系统已经可以正常使用,并提供单字检索、综合检索、专书检索、历代字形和帮助等五大功能,在主页直接可以进行单字检索。

  系统建设采用了先进的数据库技术、信息挖掘技术、图形处理技术、可视化技术等手段,从应用角度出发构建科学、系统、高效、实用的汉字全息资源应用平台,以满足不同领域汉字应用的多元化需求。既可作为基础教育及汉语国际教育领域的教学平台,也可作为文字学及相关专业领域专家学者的科研平台,还可作为国内外文化爱好者的学习平台。

(责任编辑:冯虎)