联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
【科研利器】北语句法结构树库发布!2万棵中文句法树免费供给科研用途

1670 阅读 2019-12-19 14:59:25 上传

本文转载自微信公众号:汉语堂


北语句法结构树库发布!2万棵中文句法树免费供给科研用途

转载自微信公众号:汉语堂

【写在前面:近日,北京语言大学语料库中心遭遇来自广东的IP集群的高强度访问和恶意攻击,造成服务器重压,迫使BCC需暂停服务数日。众所周知,BCC长期致力于为学界、教育界和公众提供免费的语料库资源及检索服务,为推动人文社科计量转型作出了重要的贡献,成为教师和学生们的教学科研利器。为此,我们对宵小之徒恶意破坏公共服务和学术资源的行径予以强烈的谴责,也衷心希望BCC服务器能尽快恢复正常运行!】

北语句法结构树库主要基于块依存图、意合图理论,并为其提供大规模、多领域的语言结构数据,而短语结构树是缺省结构、句间结构的基础,因此北语句法结构树库的构建以短语结构标注为基础,分级分层、逐步完成缺省结构、句间结构标注。短语结构树构建具体说来就是:通过区分句内短语、语气成分、连接成分,标注句子基本骨架,初步构建浅层句法分析树库,同时为缺省结构、句间结构标注打下基础。

本数据在篇章层面进行短语结构标注,保持了篇章原有的段落组织结构,在段落中采纳传统单复句理论,将篇章中的“句”首先分为单句、复句,复句由若干分句构成。而单句和分句都是一种小句。然而由于篇章的句具有连贯性与完整性,也是一种进入交际中的句。因此,除了常见的句法成分外,还有衔接上下文的成分、表达语气、态度等附加语义的语气成分。所以本数据集中的小句主要由句法成分组块、连接成分组块、语气成分组块构成。

当然,在三类成分组块中,句法成分组块是最重要的,根据各组块在句中的句法功能,句法成分组块主要包括:主语组块、状语组块、核心谓词、补语组块、宾语组块。而句间衔接组块主要指句间连接性词或词组、话语标记、插入语。辅助语组块包括语气词、语气辅助语、呼应词、感叹词、不作状补成分的拟声词、焦点标记的“是……的”等。

北语汉语句法结构树库1.0共包含:

文件556个,根节点20137个,IP编号41201个,达到571352字。 

本数据采用了与其他树库资源尽量兼容的符号体系:


1

句标记

ROOT复句、单句

IP小句

NP-HLP名词性独词句

VP-HLP谓词性独词句

2

组块符号标记

NP-SBJ体词性主语块,包括定语的最大名词性短语;如:(NP-SBJ 幼儿园的小朋友)喜欢吃苹果。

VP-SBJ谓词性主语块,谓词性词、短语构成的主语块;如:(VP-SBJ 写小说)是他的爱好。

UNK-SBJ体词性与谓词性结构并列构成的主语块;如:(UNK-SBJ 函电、拍卖、投标、招标、交易所成交、展卖等)是从交易方式的角度分出的类。

NP-OBJ体词性宾语块,包括定语的最大体词性短语;如:他吃(NP-SBJ 苹果)。

VP-OBJ谓词性宾语块,谓词性词、短语;如:京津冀交通一体化的核心是(VP-OBJ “轨道上的京津冀”)。

UNK-OBJ名词性与谓词性结构并列构成的宾语块;如:这种测验包括(UNK-OBJ 枯季和冰期的流量测验,汛期跟踪洪水的测验,定期水质取样等)。

VP-PRD谓词性述语块,如:他(VP-PRD (认真(VP-PRD写)))字。

NP-NPRE名词性述语块,如:这个人(NP-NPRE 黄头发)。

NULL-MOD 由状语、补语充当的修饰组块;如:他(NULL-MOD 小心地)递(NULL-MOD 过来)一个苹果。

NULL-AUX由语气词、语气辅助语、呼应词、感叹词、拟声语、“是……的”等辅助性语气词/短语构成的辅助组块;如:这题真难(NULL-AUX 啊)!

NULL-CON/w-CON由连词或连接性词组、话语标记、插入语、连接符号标记构成的衔接组块,如:(NULL-CON 虽然)谁都知道,(NULL-CON 但)谁也不说。这种测验包括(UNK-OBJ 枯季和冰期的流量测验(w-CON,)汛期跟踪洪水的测验(w-CON,)定期水质取样等)。

(ROOT (IP (NP-SBJ 广大干部群众) (VP-PRD 认为) (w ,))(IP (NP-SBJ 总书记的讲话) (VP-PRD (NULL-MOD 深刻) (VP-PRD 分析了)) (NP-OBJ 党风廉政建设和反腐败斗争形势) (w ,))(IP (VP-PRD (NULL-MOD 明确) (VP-PRD 提出)) (NP-OBJ 当前和今后一个时期工作的总体要求和主要任务) (w ,))(IP (VP-PRD (NULL-MOD 为在新形势下不断把党风廉政建设和反腐败斗争引向深入) (VP-PRD 指明了)) (NP-OBJ 努力方向、) (VP-PRD 提供了) (NP-OBJ 基本遵循) (w 。)))

再看这棵树:

(ROOT (IP (w “) (VP-PRD 加强) (NP-OBJ 纪律建设) (w ,))(IP (VP-PRD 需要) (VP-OBJ (VP-PRD (NULL-MOD 以完善的制度) (VP-PRD 为)) (NP-OBJ 保障)) (w 。)))

还有这棵树:

(ROOT (IP (NULL-MOD 其中,) (NP-SBJ 铁路) (NP-NPRE 2.95亿人次) (w ,))(IP (NP-SBJ 道路) (NP-NPRE 24.22亿人次) (w ,))(IP (NP-SBJ 水路) (NP-NPRE 4284万人次) (w ,))(IP (NP-SBJ 民航) (NP-NPRE 4914万人次) (w 。)))

以及这棵树:

(ROOT (IP (NP-SBJ 春运安全形势) (VP-PRD (NULL-MOD 总体) (VP-PRD 稳定)) (w 。)))

这么好的资源,先向学术界免费开放!如何获取?请参看下面的引导: 

第一步,进入BCC语料库主页面:bcc.bicu.edu.cn

第二步,点击【下载】

第三步:点击“北京语言大学汉语句法树库1.0”

第四部:填写个人基本信息即可下载



欢迎关注微信公众号:汉语堂



点赞
收藏
表情
图片
附件