746 阅读 2020-01-06 14:21:45 上传
冯志伟:大数据为何对语言学如此重要?
尊敬的严明校长、尊敬的易绵竹教授、女士们、先生们:
首先祝贺大数据驱动的语言文化创新研究高端论坛开幕。今天我们会议的主题是“大数据”(big data)。
大数据这个概念是1997年由美国国家航天局研究院的Michael Cox和David Ellsworth提出的,他们认为大数据是可以进行可视化研究的、数量巨大的科学数据。美国IBM公司认为大数据具有三个特性:Volume(大规模), Variety,(多样性),Velocity(高速度),叫做三V。
在语言文化研究中,我们也需要数据(data)。
早期研究的数据来源主要是内省(introspection),严谨的学者们提出了“例不过十不立,反例不过十不破”的语言学研究原则,但是这个原则依赖的数据只是10个例子或者10个反例,显然是小数据,是非常不可靠的。在浩瀚无边的数据海洋中,仅仅依靠区区的10个例子或者10个反例就试图决定语言学结论的真伪,显然是不科学的。
早期研究的数据还有一个来源就是“诱导”(elicitation),也就是从书本、词典等第二手材料中或者通过问卷调查、方言调查等方式,诱导出有关的数据,并进一步从数据中推导出结论。这样的方式依靠的数据当然也只是小数据,难免有片面或不完善的地方。
现在我们主张依靠大数据,从大规模的真实文本数据中获取知识,这样的大数据除了具备大规模(large scale)的特点之外,还具有真实性(authentic)的特点,它们都是客观存在的数据,不带有主观性。
进入大数据时代之后,我们获取大数据的方式不再是“内省”或“诱导”,而是“观察”(observation)。使用这样的大数据来研究语言文化,使我们有可能通过“观察”获得客观的知识,这样就大大地避免了主观性和片面性。
所以,大数据驱动的语言文化创新研究是我们认识和研究客观世界方法的重大改变,在方法论上具有重要的意义。当前在自然语言处理研究中,提倡建立语料库(corpus),使用机器学习(machine learning)的方法,让计算机自动地从浩如烟海的语料库大数据中获取准确的语言知识。就是这种改变的一个重要方面。
互联网的发展日新月异,互联网上有无比丰富的文本语言大数据,其中有结构化的语言数据,也有非结构化的语言数据,互联网是大数据的重要来源,我们应当从互联网上的语言大数据中自动地获取语言文化知识。
这些都是语言文化研究中获取语言知识方式的巨大变化,作为二十一世纪的语言文化工作者,都应该注意到这样的变化,逐渐改变获取知识的手段,从而实现科学创新。让我们大家一起来进行大数据驱动的语言文化创新研究,祝福大会取得成功。