人民日报标注语料库
412 阅读 2021-04-22 09:57:01 上传 0KB
人民日报标注语料库
该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)。
为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD,http://corpus.njau.edu.cn/),目前该语料库涵盖了《人民日报》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。
点赞
收藏
表情
图片
附件