1738 阅读 2019-12-19 14:59:25 上传
北语句法结构树库发布!2万棵中文句法树免费供给科研用途
转载自微信公众号:汉语堂
【写在前面:近日,北京语言大学语料库中心遭遇来自广东的IP集群的高强度访问和恶意攻击,造成服务器重压,迫使BCC需暂停服务数日。众所周知,BCC长期致力于为学界、教育界和公众提供免费的语料库资源及检索服务,为推动人文社科计量转型作出了重要的贡献,成为教师和学生们的教学科研利器。为此,我们对宵小之徒恶意破坏公共服务和学术资源的行径予以强烈的谴责,也衷心希望BCC服务器能尽快恢复正常运行!】
北语句法结构树库主要基于块依存图、意合图理论,并为其提供大规模、多领域的语言结构数据,而短语结构树是缺省结构、句间结构的基础,因此北语句法结构树库的构建以短语结构标注为基础,分级分层、逐步完成缺省结构、句间结构标注。短语结构树构建具体说来就是:通过区分句内短语、语气成分、连接成分,标注句子基本骨架,初步构建浅层句法分析树库,同时为缺省结构、句间结构标注打下基础。
本数据在篇章层面进行短语结构标注,保持了篇章原有的段落组织结构,在段落中采纳传统单复句理论,将篇章中的“句”首先分为单句、复句,复句由若干分句构成。而单句和分句都是一种小句。然而由于篇章的句具有连贯性与完整性,也是一种进入交际中的句。因此,除了常见的句法成分外,还有衔接上下文的成分、表达语气、态度等附加语义的语气成分。所以本数据集中的小句主要由句法成分组块、连接成分组块、语气成分组块构成。
当然,在三类成分组块中,句法成分组块是最重要的,根据各组块在句中的句法功能,句法成分组块主要包括:主语组块、状语组块、核心谓词、补语组块、宾语组块。而句间衔接组块主要指句间连接性词或词组、话语标记、插入语。辅助语组块包括语气词、语气辅助语、呼应词、感叹词、不作状补成分的拟声词、焦点标记的“是……的”等。
北语汉语句法结构树库1.0共包含:
文件556个,根节点20137个,IP编号41201个,达到571352字。
本数据采用了与其他树库资源尽量兼容的符号体系:
1
句标记
ROOT复句、单句
IP小句
NP-HLP名词性独词句
VP-HLP谓词性独词句
2
组块符号标记
NP-SBJ体词性主语块,包括定语的最大名词性短语;如:(NP-SBJ 幼儿园的小朋友)喜欢吃苹果。
VP-SBJ谓词性主语块,谓词性词、短语构成的主语块;如:(VP-SBJ 写小说)是他的爱好。
UNK-SBJ体词性与谓词性结构并列构成的主语块;如:(UNK-SBJ 函电、拍卖、投标、招标、交易所成交、展卖等)是从交易方式的角度分出的类。
NP-OBJ体词性宾语块,包括定语的最大体词性短语;如:他吃(NP-SBJ 苹果)。
VP-OBJ谓词性宾语块,谓词性词、短语;如:京津冀交通一体化的核心是(VP-OBJ “轨道上的京津冀”)。
UNK-OBJ名词性与谓词性结构并列构成的宾语块;如:这种测验包括(UNK-OBJ 枯季和冰期的流量测验,汛期跟踪洪水的测验,定期水质取样等)。
VP-PRD谓词性述语块,如:他(VP-PRD (认真(VP-PRD写)))字。
NP-NPRE名词性述语块,如:这个人(NP-NPRE 黄头发)。
NULL-MOD 由状语、补语充当的修饰组块;如:他(NULL-MOD 小心地)递(NULL-MOD 过来)一个苹果。
NULL-AUX由语气词、语气辅助语、呼应词、感叹词、拟声语、“是……的”等辅助性语气词/短语构成的辅助组块;如:这题真难(NULL-AUX 啊)!
NULL-CON/w-CON由连词或连接性词组、话语标记、插入语、连接符号标记构成的衔接组块,如:(NULL-CON 虽然)谁都知道,(NULL-CON 但)谁也不说。这种测验包括(UNK-OBJ 枯季和冰期的流量测验(w-CON,)汛期跟踪洪水的测验(w-CON,)定期水质取样等)。
再看这棵树:
还有这棵树:
以及这棵树:
这么好的资源,先向学术界免费开放!如何获取?请参看下面的引导:
第一步,进入BCC语料库主页面:bcc.bicu.edu.cn
第二步,点击【下载】
第三步:点击“北京语言大学汉语句法树库1.0”
第四部:填写个人基本信息即可下载
欢迎关注微信公众号:汉语堂