联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
语言文字规范-通用规范汉字

410 阅读 2020-11-27 09:51:08 上传

以下文章来源于 语言文字周报

《通用规范汉字表》中的“通用规范汉字”指本字表中的8105字,是经过系统整理、由国家发布、通行于中国大陆现代社会一般应用领域的标准汉字。

《通用规范汉字表》中的“规范汉字”的含义可以从两方面来说:

一是对汉字进行了较为全面的系统整理,包括确定一个汉字通常应该怎么写、显示一个字的常用程度(字级)、一个汉字的不同形体之间是什么关系(简繁、正异关系)等;

二是具有权威性,由政府发布,在字形、字量等方面对汉字的使用有指导和规范的作用,例如一级字也是基础教育阶段用字,是初中毕业生应该掌握的范围。

 

字表的收字分级运用了语料库技术等现代化手段。

 

首先是选择了多种各有特点的语料库。

这些语料库有的广泛收集各个领域的现代汉语语料,时间跨度将近100年,分门别类按照比例抽取,体现汉字使用的整体状况;有的专门针对基础教育的学习用字选取儿童文学语料,体现特定领域的用字状况,不同类型的语料库互为补充,保证汉字统计的来源是科学全面的。

 

其次,在确定字级时,从多个角度衡量,通过统计每个字使用的次数、在不同性质语料中的覆盖程度等,科学定量、合理分级。

根据当前多个语料库用字统计的结果,字表一二级字确定为6500字,对应以前的《现代汉语通用字表》7000字,字量减少了500字。这个数字看起来令人担心是否够用。不过使用其他语料库进行验证时,发现目前的6500字覆盖率与原来的7000字相比基本不变,充分证明了字表研制的科学性,客观反映了实际用字状况。

除了运用统计的手段,考虑到汉字应用的规律特点,字表研制也采用了人工干预的方式。

例如,在一级字和二级字之间,存在一些位置并不是很稳定的字,比如字频统计3200——3500之间的字。这些字在某些语料中很常见,在另外一些场合却很少用到。这些字哪些可以进入一级字,哪些可以放在二级字,需要通过人工干预来实现。

 

在确定哪些字进入一级字时,主要做了三项工作:

一是提出频次低于3200的300字,依据对儿童文学语料库的核查及中小学教师的问卷调查,补进少数儿童口语用字;

二是依据汉字的系统性,补全了未能进入一级字表的10个大写数目字、22个干支字、全国各省(自治区、直辖市)简称用字;

三是适当照顾常见的联绵词用字。比如在一级字中,按照统计结果原本没有“蝴蝶”的“蝴”,可是这个词是儿童文学作品和日常生活中常用的,需要通过人工干预把它调整到一级字。这也体现了字表研制中实事求是、力求客观反映社会用字状况的科学精神。

 

字表的一、二级字基本上是依据几个大的语料库的字频统计结果得来的。

什么是语料库呢?

简单地说,“语料库”是“语言材料的仓库”。

在语言学研究中,搜集大量的语言材料,比如报纸杂志、文学作品、科普读物等,经过整理后,可以进行统计、对比,还可以进一步用统计结果进行语言学研究。

现在所说的语料库,一般都指利用计算机存储,按照各种格式要求整理、标记,能够实现计算机统计的数字化语料库。它是语言学很多方面研究的基础资源。根据不同的研究需要,语料库里收集的资料会有所偏重,规模大小也会有所不同。

比如要研究古代汉语,语料库的材料就应该是古文,要研究外国人学习汉语的情况,就要大量收集外国学生写的汉语文章,等等。
 

 

字表一、二级字表收字主要利用了国家语委现代汉语平衡语料库,通过对字频、覆盖率、字频分布(反映一个字在不同学科领域等语料中的使用情况)等进行综合统计,科学计算确定收哪些字。

为保证研究结果的科学性,还利用了“现代新闻媒体动态流通语料库”,建立了“教育科普综合语料库”“儿童文学语料库”作为重要辅助。这些语料库各有特点,互为补充,为《通用规范汉字表》科学选字提供了全面的资料基础。


国家语委现代汉语平衡语料库是在海量语料基础上,经过科学论证,按一定比例随机抽取各学科、各文体、各时间段的语料构成。语料时间跨度从1911年到2002年,全库约9100万字符,内容覆盖了55个学科。

这个语料库规模较大,在选取不同语料时注重学科、文体、时间段等方面的平衡性,较为全面和真实地反映了现代汉语书面语的使用情况,用这个语料库统计得到的字频和覆盖率、字频分布等统计结果,能够比较准确地反映现代汉字使用的实际情况。


为确保语料库统计数据的全面与有效,选择和建立了三个辅助语料库作为补充:


(1)现代新闻媒体动态流通语料库。收录2001年-2002年全国15种通行度较高的报刊其全部的语料,3.5亿字符。特点是收字规模庞大,具有动态特点,最大程度地减少了因社会突发事件造成的字频跳跃现象对统计的影响。比如汶川2008年发生了大地震,当年的所有新闻媒体对此都报道极多。如果字频统计所依据的语料不具有动态特点,而仅以2008年的新闻媒体文本为对象,则“汶”字的使用频率极高。其实“汶”字的这种高频并非正常状态,在2008年之前和现在,其频率不会很高。使用了动态流通语料库,就能对这些不正常的高频起到一定的调剂作用以使其趋向正常。


(2)教育科普综合语料库。收录1951年-2003年的多种版本中小学教材及科普读物的语料,518万字符。特点是语料面向义务教育与社会大众,有利于对一二级字特别是一级字收字进行核查和补足。


(3)儿童文学语料库。收录1949年-2007年出版的适合义务教育第一、二学段阅读的儿童文学的语料,570万字符。特点是能够核查、补充在一般语料中字频偏低的儿童口语用字。如“蝴蝶”在儿童文学中是常用词,但是“蝶”字还可以和其他字构成词语,“蝴”字几乎只出现在“蝴蝶”一词中,按照一般语料库的字频统计,很难进入一级字。儿童文学语料中这类词语比其他语料出现次数多,其常用程度可以在这一专门语料库的字频统计中得到体现,收入一级字。

 

与一二级字的收字方式不同,《通用规范汉字表》三级字不是来源于语料库的字频统计,而是从以下四个领域的用字收集来的:


(1)姓氏人名用字。

主要来自1982年全国人口普查18省市抽样统计姓氏人名用字、公安部提供的姓氏用字及部分人名用字、群众提供的姓氏人名用字、一些古代姓氏用字和有影响的古代人名用字。

 

比如“堃、淼、昇、喆、犇、

、龢”等字,在词语中使用时(如“浩淼[淼]”“和[龢]谐”等),这些字的意义与确定为正字的“坤、渺、升、哲、奔、俯、和”相同。但由于这些字形受到一些人的喜爱(比如“喆”由两个“吉”字组成,让人觉得包含吉祥的意义),古今人名中都不少见。

 

由于这些字除了见于人名,其他场合几乎不用,除非到专门的人名户籍类语料中去找,一般来源的语料中这些字的字频极低甚至统计不上来。然而在今天计算机服务与管理几乎覆盖社会全领域的时代,人名信息非常重要,人名在计算机中打不出来,会给很多人的日常生活带来不便,关系到他们的切身利益。为了满足大众取名需要,方便用这些字取名的人,保障他们的相关利益,字表有必要收录这些字。


要说明的是,字表收录姓氏人名用字是有选择的。

首先“姓氏用字”和“人名用字”要区别对待。

中国人历来重视自己的姓氏,也不会轻易更改,所以,“姓氏用字”只要来源清晰,都尽可能收录;其次,“人名用字”本身也要区别对待,那些老百姓喜欢的、也确实有不少人正在使用的人名用字,像姓氏用字一样应该尽可能收录,但那些只有极少数人甚至个别人使用的很生僻的字,则基本上不收录,个人生造字、错讹字、音义不明的字,更不会考虑收录。


大家都明白,取名虽然是个人的事情,但名字的使用基本上都是他人的事情——别人认不得、叫不出、记不住、计算机打不出来的名字,其作用不是大打折扣甚至几乎无用吗?所以,我们建议在给新生儿取名时,不要选生僻、罕见的字形,而要多考虑使用常用字,通过不落俗套、不乏新意、寓意深刻的搭配也能起一个令人印象深刻的好名字。


(2)地名用字。

主要来自民政部和国家测绘局提供的乡镇以上地名用字、部分村级地名和部分自然实体名称的用字、主要汉语工具书中标明为“地名”的用字。

在不少场合和证件上,地名信息与人名信息同等重要,因此字表要充分考虑这方面的需求。与上面说到的人名用字一样,地名用字也不可能做到全覆盖,字表收录了全国乡镇及其以上的全部地名用字。


(3)科技术语用字。

主要来自全国科学技术名词审定委员会提供的56个门类、中国社会科学院语言研究所提供的33个门类的科学技术与人文社会科学的术语用字。

随着社会的发展,相当多的科技名词进入老百姓的日常生活,那些以前一般视为专业领域的用字也随之进入大众视野。比如前几年发生的牛奶中添加“三聚氰胺”事件,让本不常见的“氰胺”二字着实“火了一把”。


(4)中小学语文教材的文言文用字。

主要来自中小学语文教材文言文语料库。

一些我们从小学就开始学习并滚瓜烂熟的经典文言文,可能让我们一辈子记忆深刻,也会经常写到用到。字表收录这些字,既满足了实际用字需要,也体现了继承与弘扬以经典文言文为代表的传统文化的需要。


概括来说,三级字表所收的姓氏人名、地名、科学技术术语和中小学语文教材文言文四个专门领域的字,在一般书面语料中较少出现,但在日常生活中会经常使用,仍然属于大众生活层面用字,特别是在信息化时代,一般应用领域的信息储存和传递还会经常用到这些字。

例如,姓氏人名和地名用字,在与人们日常生活密切相关的邮政、金融、交通等领域,以及身份证等证件中经常使用;科学技术术语和浅近文言文用字在人们学习和生活中也要经常接触。将这些字收入字表,可尽量满足人们学习和生活的需要。

 

 

点赞
收藏
表情
图片
附件