冯志伟:从语料库中挖掘语言学知识和非语言学知识
1436 阅读 2020-09-28 09:53:02 上传
大规模的真实文本语料库包含着无比丰富的知识和信息,语料库是一个宝藏,从语料库中可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识,从语料库中还可以抽取各种各样的信息。在本文中,我们先讲怎样从语料库挖掘语言学知识,然后再讲怎样从语料库中挖掘非语言学知识。文章着重指出,在当前语言学战略转移的关键时刻,我们应当把基于语料库的经验主义方法与基于规则的理性主义方法结合起来。这是当前语言学战略转移的正确方向。语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初步的理论,形成了一门新的学科 -- 语料库语言学(corpus linguistics),由于语料库是建立在计算机上的,因此,很多学者把它看成是自然语言处理(natural language processing)的一个分支学科。语料库究竟有什么用处。这里我们通过一个实例来说明。1. 游览北京名胜古迹的多半是外地人。(表示“大部分”)2. 过了立秋,天气多半会变得凉爽起来。(表示“通常”)3. 他们多半会同意的,你不用着急。(表示“很有可能”)仔细观察,发现句子3有歧义。除了表示“很有可能”之外,还可以表示“他们”中的“大部分”。也就是说,“多半”的语义指向可以向后指向“同意”,还可以向前指向“他们”。最近,我的博士生高松带着这样的问题,对北大语料库提供的500条语料进行分析,得出了如下的统计结果:高松进一步分析发现,出现歧义的条件是:句子的主语必须是群体性的名词、名词词组或者人称代词。句子3之所以有歧义,就是因为主语“他们”是表示群体的人称代词。这样就解释了句子3出现歧义的原因。这样的解释是前辈语言学家没有做到的。高松发现了前辈语言学家没有观察到的问题,做到了前辈语言学家做不到的事情,语料库给她提供的一种观察语言现象的手段,使她有可能获取到重要的语言学知识。可见,语料库确实是语言研究的有力工具,语料库可以帮助普通的年轻学子超越前人。树库(tree-bank)是语言知识的重要来源(Abeillé, A,2003;Hinrichs, E. et al,2005)。中国传媒大学计算语言学树库研究团队近年来在从语料库中获取语言学知识方面做了一些初步的探索。他们不仅使用普通的语料库来获取知识,还进一步把语料库加工成树库来获取知识(刘海涛、冯志伟,2007)。语料库数据à带标语料库à树库à数据挖掘à结构化的数据à统计分析à知识(包括语言学知识和非语言学知识)。中国传媒大学树库研究团队刘海涛和胡凤国把依存树库中的依存树转换成汉语依存网络,使用“复杂网络”(complex network)的理论和方法对依存网络进行了研究。这些研究成果分别在2008年的physica A和Europhys Letter上,引起了国际物理学界的关注。他们还在《科学通报》2009年7月54卷14期上发表了《汉语语义网的统计特性》,介绍了在语义网络方面的研究成果。这些研究成果显示了语料库的威力,证明了我们确实可以从语料库中挖掘到有用的语言学知识。语言学知识究竟在哪里?我们的回答是:语言学知识固然在词典里,在语法书里,在汗牛充栋的语言学著作里,但是,这些语言学知识毕竟是通过语言学家对于局部的语言现象归纳出来的,难免会有片面或错误的地方;更多的语言学知识还隐藏在语料库里,语料库是语言学知识最可靠的来源。从语料库中获取语言学知识,并根据这些知识对于前辈语言学家根据内省得出的结论进行检验,从而证实或证伪这些知识,这是生活在21世纪的语言学家责无旁贷的任务。除了使用语料库挖掘语言学知识之外,还可以使用语料库挖掘非语言学的知识。这里我们介绍“文本数据挖掘”(text data mining,简称TDM)。文本数据挖掘目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。“文本数据挖掘”(TDM)中的“挖掘”(mining)这个单词并不是一个很确切的比喻。在这里,“挖掘”意味着从没有价值的岩石中提取贵重的金属。如果文本数据挖掘真的遵照这一比喻的话,那就意味着文本数据挖掘是在数据的清单当中寻找新的事实,文本数据挖掘目前倾向于自动地或半自动地发掘大量数据中隐藏的趋势和模式,就像从没有价值的岩石中提取贵金属一样,这样的数据挖掘通常以决策制定为目的。在十多年前,Don Swanson (斯万森)证明了医学文献的语料库中暗含的因果链可以帮助我们找到有关罕见疾病起因的假说,而其中一些假说最后得到了实验数据的支持。例如,当调查偏头痛(migraines)的起因时,Don Swanson从生物医学文献的文章标题中提取了各种各样的线索(Swanson, 1987, 1997)。其中的一些线索如下:·Stress is associated with migraines·Stress can lead to loss of magnesium ·Calcium channel blockers prevent some migraines·Magnesium is a natural calcium channel blocker ·Spreading cortical depression is implicated in some migraines·High levels of magnesium inhibit spreading cortical depression ·Migraine patients have high platelet aggregability·Magnesium can suppress platelet aggregability 根据这些线索可以假定,缺镁可能是某些偏头痛的原因之一;但是,在Swanson发现这些链接之前,这一个假定在文献中并不直接存在,它是隐含在文献中的。这个假说还需要进行非文本手段的检验,不过,重要的是,这项研究说明,一个新的、可能是正确的医学假说是来源于文本片段,一旦这个假设得到研究者的医疗专业知识的印证,就可以发现新的医学知识。Don Swanson的研究生动地说明了文本数据挖掘在新知识发现中的重要作用。我们还可以把文本数据挖掘的技术应用于网络数据挖掘(Web Data Mining)。网络数据挖掘有两个目标。第一个目标是帮助用户在网页上找到有用的信息并在网页文件集描述的范围内找到有用的知识。第二个目标是分析基于网页系统下的交互,优化系统,并找出用户使用系统的信息。我们实际上是把网页中的信息看成是一个庞大的知识库,我们要从中提取出新的、前所未有的信息。选自《首届汉语中介语语料库建设与应用国际学术讨论会论文选集》首届汉语中介语语料库建设与应用国际学术讨论会论文选集I S B N:978-7-5100-3811-2本书包括了“全球汉语学习者语料库”建设方案、韩国留学生汉语中介语语料库的标注研究、小型外国学生口语中介语语料库的建立与价值、汉字偏误标注中介语语料库建设中的若干问题探讨、越南人学习汉语的中介语表现、香港地区普通话中介语用词特点研究等。