联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
当语言学遇上统计学|语言学午餐

511 阅读 2020-07-11 15:28:02 上传

以下文章来源于 语言学午餐Ling-Lunch

语言学是数学和人文科学之间的桥梁。

——[] 数学家阿达玛(J.Hadamard


一、统计学下的创作调侃

几年前,从网上有篇很火的文章,题目叫做《文科生终于可以被消灭了》。是一位程序员心血来潮地对《全宋词》中的两字词语做了频率统计,并取了频率最高的前100名。[1]


数据统计结果的前24名制成表格后显示如下:

排名

词语及其出现频率

排名

词语及其出现频率

排名

词语及其出现频率

排名

词语及其出现频率

1

**  1485

2

东风1382

3

何处1230

4

人间1202

5

风流 857

6

归去 812

7

春风 802

8

西风 779

9

归来 771

10

江南 765

11

相思 753

12

梅花 732

13

千里 676

14

回首 656

15

明月 651

16

多少 648

17

如今 642

18

阑干 630

19

年年 613

20

万里 590

21

一笑 582

22

黄昏 550

23

当年 542

24

天涯 537

(注:排名第一的“**”为无效词)


接下来,这位网友指出,使用一个最基本的无理数,就能写下一手颇有意境的宋词[2]


《清平乐·圆周率》

回首明月

14 15

悠悠心事空

92 65

西湖何事寂寞中

35 89 79

风吹斜阳匆匆

32 38 46




自然,这样的创作失去了文学的真情,也不一定符合格律。但对语言学家来说,统计学方法的确具有很大的启发性。


制作上述表格的时候,小编注意到,关于回忆、孤独的词语和凄凉、冷清的意象成为宋词中出现频率最高的词汇。这样的表格,更加直观并且客观地反应了当时文人墨客的伤春怀秋的心情,随之展现出当时的时代特征。


千百年来,不同的语言逐渐形成了自己的规律与体系。然而这个过程是缓慢且无意识的,语言含义的繁复性与多样性,让研究工作变得非常庞大。面临古今中外宏大的文学宝库或者语言资料时,即使是学者,单凭自己的感受和记忆,也不能有效整理大量的信息。


而借助数学的客观性,或许能够帮助我们找到语言发展的脉络,或是从整体上宏观地分析一个时代的语言。


二、几个运用统计学研究语言的小例子

小编原来看过一本书,叫做《语言与数学》[3]。里面有一个章节论述了语言符号与统计数学的关系。书中指出,语言符号具有极强的随机性。那么自然,可以引进统计学的知识对它进行统计和分析。


也许想不到,有了统计学做武器,语言学家可以做出许多有价值的分析:


——可以通过研究汉语语音中声母与韵母的统计,绘制汉语中五个声调在一个单字里的音节分布直方图,得出汉语的发声规律。由此得出汉语富有音乐性的奥秘所在。


——可以通过对中国十七个城市方言的声母、韵母以及声调的分析,得到汉语各方言之间的亲属关系的聚类树形图。以清晰地展现各大方言的组合情况,找出各地的人学习普通话时容易出现的不同问题


——可以通过对基本词汇保留情况的百分比估算出语言的起源时间,也可以将英语与德语基本词汇保留情况百分比代入公式,估计出它们大约在公元六世纪时开始分化


三、计算风格学与作者考证

以上几种研究的公式都比较复杂,有兴趣的读者可以参考原书。下面,小编为大家介绍其中一种稍微简单一点的计算风格学1964年提出)。


首先,有人分析过22部风格迥异的,包括文学、文学理论、哲学、经济学、考古学和自然科学的德语作品。统计其平均词长(音节总数/单词总数)和平均句长(单词总数/句子总数)。

序号

作者

平均词长

平均句长

序号

作者

平均词长

平均句长

1

凯斯特奈

1.732

8.432

12

索墨菲尔德

2.100

21.597

2

里尔克

1.451

8.747

13

绍尔

2.270

22.600

3

法拉达

1.530

10.676

14

歌德《意》

1.715

22.724

4

封丹奈

1.724

14.440

15

歌德《赫》

1.575

22.825

5

施托姆

1.631

18.825

16

普朗克

2.019

23.531

6

托马斯·曼

1.804

18.850

17

霍夫曼

1.721

24.868

7

沙米索

1.612

19.754

18

艾森多夫

1.566

24.900w

8

海斯

1.716

20.011

19

歌德《诗》

1.686

29.100

9

海森堡

1.919

20.530

20

黑格尔

1.836

21.381

10

豪夫

1.645

20.700

21

马克思

2.021

32.688

11

爱因斯坦

1.929

21.097

22

施里曼

1.892

42.134

(注:《意》为《意大利游记》,《赫》为《赫尔曼与多罗苔》,《诗》为《诗与真实》。)


看到这份统计表,我们可以非常直观地说:118世纪到20世纪德语的书面语句子在逐渐变短2人文科学和社会科学的作品句长要长于文学作品3)句长和词长没有直接联系;以及4)歌德的作品风格如此多变


通过这样的分析,我们直观地感受到了不同文体与不同作者的风格,而不仅仅是给出一系列描述词来阐述文体间的差异。


这种统计学的方法也被成功地运用到“作者考证”这个充满争议的研究领域中。以往,某本名著的作者产生争议时,我们只能够凭借经验和历史文献、作家生平记录来进行考证。如今有了计算风格学,我们可以拿出严谨而有说服力的证据。


《静静的顿河》的作者曾在肖洛霍夫和克留柯夫之间存在争议。然而当学者采取了肖洛霍夫、克留柯夫其它作品和《静静的顿河》中140, 000个单词的样品之后,对其句长、语言要素(主谓宾定状补)在句子中的位置以及词频进行了统计和分析,发现肖洛霍夫的作品风格与《静静的顿河》几乎完全吻合。这就比任何谣言和匿名的诽谤信都更能说明真正的作者是谁。也比学者的学术考证更能让公众普遍接受和信服。


读者们一定十分熟悉《红楼梦》的作者之争。从前,普遍的说法是,《红楼梦》的后四十回系高鹗所作。然而这个结论遭到了进入文学研究领域的统计学的挑战。1981年美国威斯康星大学的讲师陈炳藻发表论文《从词汇上的统计论<红楼梦>的作者问题》。通过对重要关键词的词频统计与分析得出后四十回仍为曹雪芹所写的结论。[4]




同样的分析也发生在美国。美国历史上,有12篇历史文献署名联邦主义者。为了找出这个人的真实身份,数学家也利用统计学,将两位候选人汉密尔顿与麦迪逊的虚词使用频率进行了对比。发现汉密尔顿喜欢用“while”,而麦迪逊喜欢用“whilst”;汉密尔顿常用“upon”“enough”,而麦迪逊则几乎不用。最终,汉密尔顿的风格特征与联邦主义者合拍,解决了这个长时间困扰美国的问题。


这些,都是离开了统计学后,我们难以得到的结论。


四、你也可以来点统计方法

那位程序员的统计使宋词的样貌变得简单起来。虽然这种用模板写诗的方式实在不可取,不过我们仍然可以通过这些系统化的分析研究更多关于语言学的问题。


比如,通过统计二十世纪英美诗人(如奥登、王尔德、艾略特等人)诗作里相似词性与句长的统计分析,可以比较这些人之间的相互影响程度。


比如,统计莎士比亚作品中最常出现的意象,以了解这位伟大的诗人和作家生平最关注的事物——这也许是莎翁自己都不甚了解的。


比如,可以研究某种语言(如盖尔语)与其平行分支的相似性,追溯其共同的源头,来复原、拯救和保存这些濒危的语种。


正如国外的新闻媒体会将一年的新闻热点词汇进行频率统计,选出年度单词,历史学家也曾将过去几个世纪不同时期的词汇进行频率统计,从词语使用的逐渐变化中,清晰的看出人类发展的历程。


同样,统计学也为语言研究带来了实用的方法。当语言学遇见统计学,就好像遇见了一位理智的引导者。像一切探索本质的旅程一样,往往会有意料之外的发现。


参考资料:

1.yixuan,《东风何处是人间》,2011年3月2日

原文地址http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/

2.魯西西的北,《文科生终于可以被消灭了!》,2011年12月2日

原文地址http://www.douban.com/group/topic/23848312/

3.冯志伟,《语言与数学》,世界图书出版社,2011年1月第1版

4.葛斌华,梁超,武修文,《数学文化漫谈》,经济科学出版社,2009年10月第1版


点赞
收藏
表情
图片
附件