当语言学遇上统计学｜语言学午餐-LingLab

当语言学遇上统计学｜语言学午餐

1327 阅读 2020-07-11 15:28:02 上传

以下文章来源于语言学午餐Ling-Lunch

语言学是数学和人文科学之间的桥梁。

——[法] 数学家阿达玛（J.Hadamard）

一、统计学下的创作调侃

几年前，从网上有篇很火的文章，题目叫做《文科生终于可以被消灭了》。是一位程序员心血来潮地对《全宋词》中的两字词语做了频率统计，并取了频率最高的前100名。[1]

数据统计结果的前24名制成表格后显示如下：

排名	词语及其出现频率	排名	词语及其出现频率	排名	词语及其出现频率	排名	词语及其出现频率
1	** 1485	2	东风1382	3	何处1230	4	人间1202
5	风流 857	6	归去 812	7	春风 802	8	西风 779
9	归来 771	10	江南 765	11	相思 753	12	梅花 732
13	千里 676	14	回首 656	15	明月 651	16	多少 648
17	如今 642	18	阑干 630	19	年年 613	20	万里 590
21	一笑 582	22	黄昏 550	23	当年 542	24	天涯 537

（注：排名第一的“**”为无效词）

接下来，这位网友指出，使用一个最基本的无理数，就能写下一手颇有意境的宋词[2]：

《清平乐·圆周率》

回首明月

14 15

悠悠心事空

92 65

西湖何事寂寞中

35 89 79

风吹斜阳匆匆

32 38 46

自然，这样的创作失去了文学的真情，也不一定符合格律。但对语言学家来说，统计学方法的确具有很大的启发性。

制作上述表格的时候，小编注意到，关于回忆、孤独的词语和凄凉、冷清的意象成为宋词中出现频率最高的词汇。这样的表格，更加直观并且客观地反应了当时文人墨客的伤春怀秋的心情，随之展现出当时的时代特征。

千百年来，不同的语言逐渐形成了自己的规律与体系。然而这个过程是缓慢且无意识的，语言含义的繁复性与多样性，让研究工作变得非常庞大。面临古今中外宏大的文学宝库或者语言资料时，即使是学者，单凭自己的感受和记忆，也不能有效整理大量的信息。

而借助数学的客观性，或许能够帮助我们找到语言发展的脉络，或是从整体上宏观地分析一个时代的语言。

二、几个运用统计学研究语言的小例子

小编原来看过一本书，叫做《语言与数学》[3]。里面有一个章节论述了语言符号与统计数学的关系。书中指出，语言符号具有极强的随机性。那么自然，可以引进统计学的知识对它进行统计和分析。

也许想不到，有了统计学做武器，语言学家可以做出许多有价值的分析：

——可以通过研究汉语语音中声母与韵母的统计，绘制汉语中五个声调在一个单字里的音节分布直方图，得出汉语的发声规律。由此得出汉语富有音乐性的奥秘所在。

——可以通过对中国十七个城市方言的声母、韵母以及声调的分析，得到汉语各方言之间的亲属关系的聚类树形图。以清晰地展现各大方言的组合情况，找出各地的人学习普通话时容易出现的不同问题。

——可以通过对基本词汇保留情况的百分比估算出语言的起源时间，也可以将英语与德语基本词汇保留情况百分比代入公式，估计出它们大约在公元六世纪时开始分化。

三、计算风格学与作者考证

以上几种研究的公式都比较复杂，有兴趣的读者可以参考原书。下面，小编为大家介绍其中一种稍微简单一点的“计算风格学”（1964年提出）。

首先，有人分析过22部风格迥异的，包括文学、文学理论、哲学、经济学、考古学和自然科学的德语作品。统计其平均词长（音节总数/单词总数）和平均句长（单词总数/句子总数）。

序号	作者	平均词长	平均句长	序号	作者	平均词长	平均句长
1	凯斯特奈	1.732	8.432	12	索墨菲尔德	2.100	21.597
2	里尔克	1.451	8.747	13	绍尔	2.270	22.600
3	法拉达	1.530	10.676	14	歌德《意》	1.715	22.724
4	封丹奈	1.724	14.440	15	歌德《赫》	1.575	22.825
5	施托姆	1.631	18.825	16	普朗克	2.019	23.531
6	托马斯·曼	1.804	18.850	17	霍夫曼	1.721	24.868
7	沙米索	1.612	19.754	18	艾森多夫	1.566	24.900w
8	海斯	1.716	20.011	19	歌德《诗》	1.686	29.100
9	海森堡	1.919	20.530	20	黑格尔	1.836	21.381
10	豪夫	1.645	20.700	21	马克思	2.021	32.688
11	爱因斯坦	1.929	21.097	22	施里曼	1.892	42.134

（注：《意》为《意大利游记》，《赫》为《赫尔曼与多罗苔》，《诗》为《诗与真实》。）

看到这份统计表，我们可以非常直观地说：1）由18世纪到20世纪德语的书面语句子在逐渐变短；2）人文科学和社会科学的作品句长要长于文学作品；3）句长和词长没有直接联系；以及4）歌德的作品风格如此多变…

通过这样的分析，我们直观地感受到了不同文体与不同作者的风格，而不仅仅是给出一系列描述词来阐述文体间的差异。

这种统计学的方法也被成功地运用到“作者考证”这个充满争议的研究领域中。以往，某本名著的作者产生争议时，我们只能够凭借经验和历史文献、作家生平记录来进行考证。如今有了计算风格学，我们可以拿出严谨而有说服力的证据。

《静静的顿河》的作者曾在肖洛霍夫和克留柯夫之间存在争议。然而当学者采取了肖洛霍夫、克留柯夫其它作品和《静静的顿河》中140, 000个单词的样品之后，对其句长、语言要素（主谓宾定状补）在句子中的位置以及词频进行了统计和分析，发现肖洛霍夫的作品风格与《静静的顿河》几乎完全吻合。这就比任何谣言和匿名的诽谤信都更能说明真正的作者是谁。也比学者的学术考证更能让公众普遍接受和信服。

读者们一定十分熟悉《红楼梦》的作者之争。从前，普遍的说法是，《红楼梦》的后四十回系高鹗所作。然而这个结论遭到了进入文学研究领域的统计学的挑战。1981年美国威斯康星大学的讲师陈炳藻发表论文《从词汇上的统计论<红楼梦>的作者问题》。通过对重要关键词的词频统计与分析得出后四十回仍为曹雪芹所写的结论。[4]

同样的分析也发生在美国。美国历史上，有12篇历史文献署名“联邦主义者”。为了找出这个人的真实身份，数学家也利用统计学，将两位候选人汉密尔顿与麦迪逊的虚词使用频率进行了对比。发现汉密尔顿喜欢用“while”，而麦迪逊喜欢用“whilst”；汉密尔顿常用“upon”和“enough”，而麦迪逊则几乎不用。最终，汉密尔顿的风格特征与“联邦主义者”合拍，解决了这个长时间困扰美国的问题。