联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
刘海涛教授:依存语法的理论与实践

1767 阅读 2021-11-26 09:09:19 上传

      计算语言学是从多种角度研究如何通过计算机来模仿人类语言处理能力,并用这种能力解决语言交流问题的学科,它的终极目标是构造一个能懂人语、会说人话、可用自然语言进行交流的机器(刘海涛等 2005,Hausser 2001)。这个定义突出了计算语言学的两个特点:理论性和实践性。前者体现在为了模仿人的语言处理能力,我们必须对这种能力有深刻的认识,而且要把这种认识上升到一定的理论层面。如果这种认识不能用精确的方式表述出来,将会影响到最终目标的实现。后者说的是,计算语言学也应该能够解决实际问题,它是一种 “应用驱动”的语言学研究。计算语言学的这种特性也使得技术现实对理论框架产生反作用和限制,说起来近乎完美的理论,如果现有的技术无法实现,那么也难以解决好实际问题。

      关于计算语言学和语言学理论的关系问题,我们认为以下几点值得考虑:计算语言学需要语言学理论,这种理论不仅应该能够描述真实语料,而且也能用精确方法来表述;计算语言学有着高远的目标,这种目标虽然在可预见的将来可能难以完全实现,但这绝不意味着研究者可以忘记这种目标,而只满足于一种短视的灵巧做法;计算语言学家的任务不仅仅是构建一些语言信息处理的应用系统,他们也应该有能力从(语言学)理论的角度解释此类人造系统的行为;面向计算语言学的语言学理论是一种可以通过机器来验证的理论,如受技术所限,某些思想一时无法实现,可实现部分不但应能从理论上自圆其说,而且也应有足够的扩展能力。总之,为了让计算机能够处理人类语言,我们需要一套切实可行的(形式)语言学理论。但计算语言学需要的是面向应用的语言学理论,也就是说这种理论不仅应该能够形式化,而且也应具备足以描写真实语料的能力。 

      Hudson(1990:3)总结了现代语言学的一些发展路向,如词汇主义(lexicalism)、整体主义(wholism)、关系主义(relationism)、单层次主义(mono-stratalismo)、实现主义(implementationism)等。无论其他的语言学家赞成与否,Hudson所说的这些研究方向确实在很大程度上反映了现代语言学理论的主要发展路向。依存语法就是具有这些特质的语言学理论。 

      依存语法具有悠久的历史。从古印度的波你尼语法、欧洲中世纪的摩迪斯泰句法理论、阿拉伯的传统语法到世界许多国家的传统语法,或多或少地都含有依存关系的思想。就现代语言学的发展来看,如果人们将乔姆斯基1957年的理论和他最新的“最简方案”理论进行比较,也不难发现他向依存语法研究传统中某些思想靠近的趋势。学界流行的面向应用的语言学理论,如词汇功能语法(LFG)、头词驱动的短语结构语法(HPSG),也均显现出了这种趋势。在计算语言学界,目前最好的英语句法分析器,如Collins(1999)、Charniak(2001)等,均采用了头词(Head)等概念。被公认为最好的语言形式化理论之一的树邻接语法(TAG),近年来也多次展现了自己与依存语法的亲缘性。在基于机器学习的计算语言学研究中,语言资源是极其重要的。从1993年美国宾州大学英语树库问世以来,世界各国的(计算)语言学家掀起了“植树造林”的热潮。十几年的研究与实践表明,树库中的树种有从短语结构向依存结构转变的趋势。 

      依存语法在(计算)语言学领域的兴起,可能归功于这种语言学理论:更有利于自然语言处理中的某些应用领域,更便于从句法层面到语义层面的转换,更适宜于处理自由语序的语言,具有更好的心理现实性,更易于构造基于机器学习的高精度句法分析程序等。 

      这些事实说明,依存语法既古老,又年轻,是一种可以解决语言分析问题的实用的语法理论。依存语法研究不但有益于计算语言学,也有助于一般的语言学研究。遗憾的是,有关依存语法理论的研究,特别是系统性的研究却不多见。造成这种局面的原因可能在于依存语法是一种开放性的理论,这种开放性给文献收集、整理和研究带来了极大的困难;二是依存语法的主要文献是用德语、法语等写成的,这又为研究增添了语言障碍;三是缺少适宜的依存语法形式化手段来研究依存语法的形式化问题;四是理论语言学研究与计算语言学实践的脱节,语言理论的研究者搞不懂计算语言学中的基本方法和手段,计算语言学研究者又忽视语言学理论的建设。所有这些困难和问题使得我们很难看到结合依存语法、配价理论和计算语言学应用的系统性研究。

      本书的主要目的是,在充分了解前人有关依存关系、配价理论、依存形式化和依存句法分析方法的基础上,归纳出依存语法和配价理论的一般原理和方法,提出一套较完整的基于配价模式的依存语法分析框架,并用实验来证明这一框架的可行性。与此同时,我们也力图用本书提出的理论架构作为主线,将相关领域的主要研究成果串在一起,形成一部配价理论和依存语法研究的简史。

      为了让国内读者更好地了解依存语法的一些基本思想和方法,本书在介绍其他学者的观点时,尽可能采用“引”而非“述”的方式,目的是为了更好地表现原义,减少误读率。在写作过程中,我们尽可能采用第一手的文献,所引外文资料一般均由作者自译。在计算语言学方法方面,本书对基于规则的方法和基于统计的方法都给予了足够的重视。理论求高、应用求实,是本书的基本方针。 

      除前言和结语外,本书共分八章,前五章构成了历史与理论部分,贯穿其中的主线是我们提出的基于配价模式的依存语法分析模型。每一章都把泰尼埃结构句法理论中的有关内容放在参照位置上,以体现我们用信息时代语言观诠释泰尼埃理论的愿望。计算语言学的特殊性也要求本书不仅应提出理论,还应能在机器上验证所提出的理论。因此,本书的后三章是用依存语法分析汉语的实践部分。在这一部分,我们不仅采用实现了本书提出的基于配价模式的汉语句法分析,也用几种流行的基于规则的依存句法分析器进行了汉语句法分析实验,目的是为了更好地理解汉语依存句法分析的可行性与特殊性。我们也采用依存树库作为机器学习的资源,对汉语进行了基于统计的句法分析研究,此种研究不但有助于明确语言学家在这一领域的作用,而且也对影响依存句法分析精度的因素有了更多的了解。最后一章以依存树库为基础,对汉语作了一些定量分析,此种分析不仅开辟了语言(汉语)定量研究的一条新路,也为“概率配价模式”的获得提供了手段。

      笔者从20年前开始系统搜集研究依存语法的文献,对于世界各国学者在此领域的研究均有一定的了解,与国际依存语法研究领域的主要学者保持着经常的学术联系。近年来,依存语法研究在国内外呈不断增长之态势,有关应用也逐渐广泛,但遗憾的是,国内仍没有系统性的专著问世。为满足教研之需要,我将自己这些年来学习研究依存语法的一些体会整理成书。希望本书不但能起到抛砖引玉的作用,也有助于加深大家对依存语法的了解和研究。

本文摘自刘海涛教授著《依存语法的理论与实践》一书前言。

图片


依存语法的理论与实践
刘海涛 著
北京:科学出版社,2020.3
ISBN 978-7-03-024866-4

图片
作者简介
图片


刘海涛,国际世界语学院院士,教育部长江学者特聘教授;浙江大学求是特聘教授、博士生导师;北京语言大学特聘教授,广东外语外贸大学云山领军学者。Journal of Quantitative Linguistics 等多种国内外语言学出版物的主编、副主编与编委会成员。浙江省优博论文指导教师。国务院政府特殊津贴获得者。研究成果曾多次获得教育部与省级社科奖。爱思唯尔2014-2020年“中国高被引学者”。





本书目录


重印说明
冯志伟序 i
Foreword vii
理查德·哈德森序 xi
前言 xv
第1章 依存结构树 1
1.1 引言 1
1.2 泰尼埃之前的句法树 4
1.3 泰尼埃的图式 6
1.4 泰尼埃之后的依存树 10
1.5 依存树的一般特性和结构 18
第2章 配价理论与配价词表 23
2.1 引言 23
2.2 泰尼埃与早前的配价研究 25
2.3 现代配价及依存理究研究概览 34
2.4 配价词爽(表)的格式和框架 55
2.5 配价词表结构框架 67
第3章 依存关系与汉语依存语法 76
3.1 引言 76
3.2 摩迪斯泰学派和泰尼埃的早期思想 77
3.3 其他学者关于依存关系的讨论 84
3.4 依存关系的属性和依存句法的构建 97
3.5 汉语依存语法 102
3.5.1 现代汉语词类体系 102
3.5.2 现代汉语依存关系 104
3.6 概率配价模式和汉语配价模式 106
3.7 汉语依存树库 111
3.8 小结 115
第4章 依存语法形式化研究 117
4.1 引言 117
4.2 语言的形式化 118
4.3 泰尼埃的依存语法形式化体系 120
4.4 美国的依存语法形式化模型 124
4.5 基于特征结构的依存语法形式化体系 129
4.6 基于树结构的依存语法形式化理论 131
4.7 基于约束的依存语法形式化研究 134
4.8 德国的依存语法形式化研究 136
4.9 基手配价模式的依存语法形式化模型 141
4.10 依存语法和短语结构语法的等价性 146
4.11 小结 153
第5章 依存句法分析 155
5.1 引言 155
5.2 句法分析的概念及定义 156
5.3 基于泰尼埃理论的依存句法分析 161
5.4 基于上下文无关文法的依存句法分析 163
5.5 基于扩展上下文无关文法的依存分析 165
5.6 基于约束的依存句法分析 167
5.7 规则与统计相结合的依存句法分析 171
5.8 基于槽概念的依存句法分析 174
5.9 基于语言学理论的依存句法分析 178
5.10 基于统计的依存句法分析 185
5.11 基于配价模式的依存句法分析 192
5.12 小结 194
第6章 基于规则的汉语依存句法分析 199
6.1 基于配价模式的汉语句法分析 199
6.2 基于简单合一运算的汉语分析 205
6.3 用链语法分析汉语 210
6.4 采用移进—归约算法分析汉语 214
6.5 基于复杂特征的汉语依存分析 217
6.6 小结 224
第7章 基于树库的汉语依存句法分析 226
7.1 真实文本汉语依存句法分析 226
7.2 归纳依存句法分析及应用 230
7.3 用自建树库进行的句法分析实验 232
7.4 修改树库标注方式后的句法分析 237
7.5 使用哈尔工业大学依存树库的依存分析实验 241
7.6 影响依存句法分析的因素探讨 244
第8章 基于依存树库的汉语计量研究 250
8.1 词类与依存关系的统计 251
8.2 依存距离的统计与分析 252
8.3 依存关系构成的统计与分析 259
8.3.1 按照依存关系对支配词和从属词的统计分析 259
8.3.2 按照支配词和从属词对依存关系的统计分析 261
8.4 从句法树到语言网 266
参考文献 276
结语 313
后记 316

图片




图片

识别二维码购买

            


点赞
收藏
表情
图片
附件