1662 阅读 2019-12-20 18:08:39 上传
成长中的演化语言学:汉藏语系的演化
作者 张梦翰 金力
作为人类特有的交流工具,语言在空间和时间上的变化能够反映人群的演化,语言起源与宇宙起源、人类起源是人类的主要未解之谜,探索其演化规律是国际交叉学科研究领域的焦点之一。众多研究者采用数学分析方法、生物演化理论等方法来回答“语言是怎么产生的,又是如何发展变化的”,希望通过对语言演化的多角度研究,为人类及文明产生和演变提供有效可靠的证据。
对人类及其文明产生和演变的研究中,最大的困难是缺乏大量文明演化的有效信息,比如遗址的损毁、文献的缺失等。但纵观整个演化过程,人类有两种特征具有较强的传承力——基因和语言。分子人类学和群体遗传学研究通过基因在不同地区的分布和变化,推测历史上人群的活动模式,成功揭示了“非洲起源”后的人群迁移和扩散现象,尤其是东亚地区的人群活动 [1]。而语言作为一种人类的表型特征,文明的象征,其传播和演化常常伴随着人群在地区内的迁移与活动,语言演化已成为人类学研究的一个新方向,越来越多的学者加入其中。依托群体遗传学的理论框架,利用语言中某些较难变化的语言特征(例如核心词和音系结构),构建语言系统发生学关系,探索语言传播模式,可以为揭示不同地区人群迁移活动,尤其是文化产生以后的人类活动提供有效信息。
自1859年达尔文《物种起源》问世以来,生物学家一直在追寻物种起源的原因,希望还原物种演变的动态过程。在进化论的启发和影响下,1863年施莱歇(A. Schleicher)指出,语言科学的研究方法大体应与自然科学的一致。据此,他采用生物学中的谱系树结构(family tree typology)探索印欧语系中拉丁语、梵语和希腊语之间的亲属关系,成为研究语言谱系理论的开端 [2]。他也许是第一位用树形图来表示印欧语系内各语支(族)间关系的语言学家,也可能是首位提出以树形分支总长估计两种语言时间上分歧程度的人。谱系理论的基本理论认为,原始语言内部具有一致性,没有方言分歧;方言或亲属语言的形成是一种语言突然变化的结果;语言分化之后就各自顺着自身的方向发展,相互间没有联系,没有影响,犹如树枝从树干上分叉出来后,就各自顺着自己的方向发展。
随着生物学的不断发展,生物学家开始从分子层面关心人群的划分问题,同时,语言学家通过语言中各种相似性来判断语言间的亲属关系。有学者提出语言系统与生物系统的类别划分是否存在一致性?卡瓦利—斯福尔扎(L. L. Cavalli-Sforza)给了一个初步回答。他根据世界人群的基因数据构建了一棵人群基因树形图,同时根据人群所属的语言种类构建了一棵语言谱系结构树,在分析了这两种数据在谱系结构上的差异结果后,发现人群的基因树和语言谱系树存在着一致性。
谱系树结构及其理论的广泛应用开辟了语言研究的新方向,也为后来许多的语言学家研究其他地区的语言演化提供了一个基本思路和方法。例如非加权平均法(UPGMA)、最大似然法(maximum likelihood)、最大简约法(maximum parsimony)以及贝叶斯方法(Bayesian method)等。尤其是贝叶斯系统发生方法在近几年的蓬勃发展和广泛应用,使诸多相关研究开始着眼于推断世界上各语系或语族的起源时间和地点,如印欧语系(Indo-European languages) [3]、南岛语系(Austronesian languages) [4]、帕马—恩永甘语系(Pama–Nyungan languages) [5]。
语言演化研究,尤其是语言起源及分化的相关研究,大多是围绕印欧语系及南岛语系语言开展的,而对于东亚地区的语言多样性分析却相对较少。
一般说来,东亚语言主要包含汉藏语系(Sino-Tibetan)、侗台语族(系)(Tai–Kadai)、苗瑶语族(系)(Hmong-Mien)、阿尔泰语系(Altaic,主要在东亚北部)、南岛语系(Austronesian,主要在中国台湾地区)、南亚语系(Austroasiatic,例如中国西南地区)。这些语系及语族中,汉藏语系由于其使用人口众多且地理分布面广,对其他语系形成和发展的影响较大,而显得尤为重要。
如果按使用人口数来看,汉藏语系是全世界第二大语系,有13亿以上母语使用者和400多种语言。主要的语言包括汉语、藏语、缅甸语、多种彝语(傈僳语、拉祜语等)、白语、克伦语、羌语、嘉绒语、土家语等,主要分布在中国全境、缅甸、泰国、南亚次大陆北部等地。这些语言共有大量的同源词,被语言学家认为具有一个共同的祖先——原始汉藏语(Proto-Sino-Tibetan language)。但是,由于使用汉藏语系语言的群体,在东亚地区与其他非汉藏语系的群体存在非常频繁的接触和交流,并且这种交流发生在非常早期的时候,甚至是在语言刚形成或者分化的时候,因此,通过现在的语言材料已无法清晰地界定出汉藏与非汉藏语言之间的边界。换言之,这些语言之间都存在着一些同源成分,故也有一种假说认为这些东亚语言应该都来自于同一个祖先语言,名为华澳语系(Austro-Asiatic)。根据传统的语言分类,可以把汉藏语系划分为汉语和藏缅语两个语族。有趣的是,如果按照语序特征来区分,汉语和藏缅语族中的白语和克伦语支都为主语—动词—宾语(SVO)语序,其他藏缅语言均为主语—宾语—动词(SOV)语序。
不同于印欧语系和南岛语系具有相对明确的谱系关系,汉藏语言学家在构建汉藏语系谱系时则存在较大的争议,争议主要围绕汉藏语系上游支系间的关系不明晰。学界的主流观点认为,汉语和藏缅语二分法构成了汉藏语系上游支系的结构,其中汉语是最早分化的语言,而藏缅语整体构成一个单系群(monophyly)。本尼迪克(P. K. Benedict)主张汉语(或汉白)、克伦语、藏缅语三分的结构 [7]。然而,由于藏缅语内部诸多语言间不存在所谓的共同创新(shared innovation),其单系性受到质疑。范德里恩(G. van Driem)则认为汉藏语系是一个“错误的概念”,该语系应该取名为“藏缅语系”或者“跨喜马拉雅语系” [8]。其观点主要认为汉语的语法特征及词汇的特性系因与其他语言混合造成,汉语可能与藏语或基兰蒂语(Kiranti)更接近。随后,他又提出“落叶模型”(fallen-leaves model),认为汉藏语系应该分为几十个不相统属的独立语支,回避了早期谱系分类的问题。但这些观点并未获得大量词汇和音韵等语言学证据的支持。
由于汉藏语系在语言分类上存在较大争议,直接导致其起源时间和起源地(Urheimat)也未有定论。语言学家普遍认为汉藏语系的起源与农业起源有关。有人提出黄河流域中游的仰韶文化和上游的马家窑文化,与汉藏语系的起源有密切关系,其语言的分化年代大约在6000年前。但也有学者认为汉藏语起源于中国四川西南地区或者喜马拉雅山一带,汉族是从中分化出的一支,在晚近的时候向东迁徙并占据了黄河流域和长江流域,其分化时间超过9000年。一般来说,由于基本词汇替换有一定的速率,两种同源语言如果分开超过一定时间(通常8000~10000年),就无法有效分辨同源词。因此,可以想象任何一个公认的语系的分化年代应该都不会超过1万年。
2019年4月25日,全部由复旦大学研究学者组成的研究团队,在《自然》(Nature)周刊上发表了汉藏语系演化研究新成果 [9]。该论文在线发布11天后,法国国家科学研究中心(CNRS)东亚语言研究所联合德国马克斯—普朗克研究所(MPI)在《美国国家科学院院刊》(PNAS)上也发表了对汉藏语系演化的研究成果,其结论也验证了复旦大学团队的结论。
一般而言,确定语言系属主要依赖同源词的多少。在不同语言中,如果某一个词来自于这些语言的共同祖先,那么这个词就是同源词,同源词的鉴定需要依托一个有限大小的基本词汇表。所谓的基本词汇表,包含全世界语言中基本的常见的词汇类别。例如,身体部位名称;自然物体、植物、动物;食物;亲属称谓、人种、社会角色;文化、文物、宗教;运动动词、操纵动词和生产动词;形容词;抽象名词与动词、心理动词、话语动词;形状、大小、颜色、尺寸、数量、时间、空间;人称代词。目前,国际上通用的基本词汇表是斯瓦迪士(Swadesh)100,或斯瓦迪士200基本词表,也称斯瓦迪士核心词表。
在汉藏语演化的研究中,采用的语言材料都是基本词汇(或者斯瓦迪士核心词表)。基本词汇表是鉴定语言谱系关系的基础,语言学家通过比较不同语言中对同一个基本词汇义项的不同读音,建立不同语言之间的谱系关系。例如,“太阳”这个词项,在汉语中最早用“日”这个字来表示,上古汉语(一种在商朝到晋朝期间使用的汉语)的读音为“njit”,现代藏语的读音是“ni-ma”,“ni”是词根,“ma”是后缀,缅语中读“ne”。比较“太阳”在汉藏语系不同语言中的读音,发现它们的读音都具有一致性,因而可以简单地判断出它们之间的同源关系。当然,这是比较容易辨认的同源词,有的同源词就很难辨认了。
有些词汇的意义已经在语言的历史变化中发生了义项的改变,比如义项“走”,在古汉语中有“跑”的意义,“奔走相告”中的“走”就是奔跑的意思,但是现代汉语中的“走”显然与“跑”无关了。词汇义项的改变会增加研究者对不同语言中具有相同义项描述的词汇的比较难度。另外,判断同源词也并非简单地比较语言对同一词汇的读音是否相同,还要基于一种所谓的“语音对应”(不同语言中反复出现的语音规律)的研究。比如:在某一种语言中凡是读“a”(音似“啊”)的词汇,如果在另一种语言中的发音都是“u”,那么,这就形成了一种“a”与“u”的语音对应,这显然不是简单的语音相似。不同语言中是否具有某一个词义的同源词,也是依赖这种语音对应规律来判断的。
当语言学家对基本词汇表中所有的词汇都做了同源词的鉴定以后,就可以根据这些同源词构建各语言之间的谱系关系。传统语言学中,语言谱系关系的构建主要基于不同语言间具有同源词的比例。比如,在给定的基本词汇表中,A和B两种语言共有50个同源词,而A和C语言仅只有10个,那么就可以判断相较于C语言,A和B两种语言的关系更近。这种考量方法虽然简单,但忽略了不同类型词的重要性,比如表示身体部位名称的词就比人称代词重要,因为人类认识世界总是从认识自己开始。复旦大学团队的研究中采用的汉藏语词汇数据来自于马提索夫(J. A. Matisoff)教授已建立了30多年的“汉藏语系词源词典”(Sino-Tibetan Etymological Dictionary and Thesaurus) [9]。
在构建谱系树时,采用的是贝叶斯系统发生学方法,该方法并非专为语言演化研究而设计的,而是用于物种演化的研究。由于物种演化和语言演化具有较高的相似性,所以有研究者开始尝试将这种方法用于语言演化的相关研究。这种方法在语言学研究应用过程中,考量了词与词之间不同的重要性,考虑了词汇在历史变化中的“丢失”和“获得”情况,还整合了不同语言演化速率有差异这一常态认识。因此,构建出的语言谱系树也更精确。
在构建谱系树过程中,研究者加入了部分语言的时间信息(如汉语共祖时间、藏文和缅文创世时间等)作为矫正整棵谱系树各节点时间信息的先验知识。创建了一棵目前全世界最大的汉藏语系语言谱系树,显示了原始汉藏语在最初分化为汉语(族)和藏缅语族两大支系的情况,也符合大部分汉藏语语言学家的共识。
根据贝叶斯方法,推算出原始汉藏语最初分化的平均时间大约在5900年前(新石器时代),而藏缅语族的内部分化的平均时间发生在约4700年前。这一结论支持“汉藏语系起源于6000年前的中国北方的黄河中游及上游地区”这一假说。
一般而言,史前语言的变化都是使用这些语言的群体在地区内活动产生的结果,尤其是语言的分化和混合,因为语言演化的载体是人群。汉藏语系的分化和扩散显然伴随着史前汉藏语人群的扩张和迁徙。换言之,如果可以在黄河中上游地区发现史前群体的扩张,而人群扩张的时间又恰巧可以与汉藏语系演化的时间节点对应,那么有理由相信黄河流域中上游地区作为汉藏语系起源地的合理性。虽然不可能知道史前相关人群的变化量,但可以通过考古遗址的数量,来近似判断这些人群数量变化的相对量。因此,在整理了中国西北地区(包含甘肃、青海、宁夏、陕西)和中国西南地区(包括四川、云南和西藏)的考古遗址数目,并对这些遗址根据其所处的史前文化时期进行时间标注之后发现,这些地区正好覆盖了史前的仰韶文化和马家窑文化的地理范围,这两个文化遗址一直与汉藏语系演化关联在一起。汉藏语系在不同时间段分化出多少语言支系的数目,可以通过计算汉藏语谱系树中每个时间段范围内的分化节点数得知。
距今7000—5000年前,中国西北地区遗址数目有增长趋势,西南地区却没有。这近似说明,西北地区人群数量在这个时间段有相对增长,而西南地区人群数量维持在一个稳定值。约在5900年前,原始汉藏语开始分化,约在5000年前的时候,西北和西南地区的遗址数目都有一明显的上升,之后西北地区的数目呈现降低趋势,而西南地区则又维持在一个稳定值。这可以近似说明西北人群在这个时间段内又有一个明显的人群扩张,西南地区也有一个人群增长的过程。有理由相信西南地区人口增长的一个重要因素,是由于西北地区人群南下导致的。从距今5000年以后,汉藏语系分化出越来越多的语言支系,这主要是藏缅语族内部的分化。综上所述,可以勾画出一个群体扩张/迁徙与汉藏语分化数目变化之间的关系,即:西北人群的扩张是原始汉藏语分化成汉语和藏缅语族的一个因素;西北人群的扩张和南下迁徙,以及西南地区的人口增长,促使了藏缅语族的内部分化。现代东亚人的群体遗传学证据,也证实汉族和藏缅语族群体的分开时间为距今6000—5000年前,分开地点可能在黄河中上游地区 [10]。
另外,汉藏语演化历程不仅与人口扩张、扩散有关,也与农业扩散有密切关系。6000年前,承载着仰韶文化的人群盘踞在黄河中上游地区,他们主要以粟黍农业为主,而长江流域主要以水稻农业为主;5000年前,以粟黍农业为主的人群向西南地区迁徙,而此时长江流域以水稻农业为主的农民也向西进发,他们在青藏高原的东侧地区相遇;随后,在4000年前,以粟黍农业和水稻农业为主的混居群体又向西南地区扩散;而2000年前的汉文化崛起和南迁,则开始形成不同的汉语方言 [11]。其中,农业扩张的过程恰巧也与汉藏语系的分化有着较高的对应关系。
汉藏语系的起源和演化一直存在争议。传统语言学的研究方法并不能给予太多可靠的语言演化信息,而进化生物学的贝叶斯系统发生学方法,则为我们提供了一种新的可能。整合语言学、遗传学和考古学的相关研究成果,勾画出一个汉藏语演化的概貌,对于长期处于争论中的汉藏语系研究无疑是一个里程碑式的突破,这是一个新研究方法的开端。语系级别的语言演化问题一直是演化语言学关心的科学问题,此项研究展示了中国学者在演化语言学上的研究实力,相信会有更多具备文理交叉学科背景的中国学者加入语言演化研究的前沿中来,为推动学科的发展贡献力量。
Zhang Menghan: Research Professor, Institute of Modern Languages and Linguistics, Fudan University, Shanghai 200433;Jin Li: Professor, School of Life Sciences and Human Phenome Institute, Fudan University, Shanghai 200438.
HUGO Pan-Asian SNP Consortium. Mapping human genetic diversity in Asia. Science. 2009, 326(5959): 1541-1545. 王士元. 演化语言学的演化. 当代语言学, 2011,13(1):1-21.
Bouckaert R, Lemey P, Dunn M, et al. Mapping the origins and expansion of the Indo-European language family. Science, 2012, 337(6097): 957-960.
Gray R D, Drummond A J, Greenhill S J. Language phylogenies reveal expansion pulses and pauses in Pacific settlement. Science, 2009, 323(5913): 479-483.
Bouckaert R R, Bowern C, Atkinson Q D. The origin and expansion of Pama–Nyungan languages across Australia. Nature Ecology & Evolution, 2018, 2(4): 741-749.
Sagart L, Jacques G, Lai Y, et al. Dated language phylogenies shed light on the ancestry of Sino-Tibetan. Proc Natl Acad Sci USA, 2019, 116(21): 10317-10322.
Benedict P K. Sino-Tibetan: A Conspectus. New York: Cambridge University Press, 1972.
Van Driem G. "Trans-Himalayan" Trans-Himalayan Linguistics. Berlin, Boston: De Gruyter Mouton, 2013. 11-40.
Zhang M H, Yan S, Pan W, et al. Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic. Nature, 2019, 569(7754): 112-115.
Su B, Xiao C, Deka R, et al. Y chromosome haplotypes reveal prehistorical migrations to the Himalayas. Human Genetics, 2000, 107(6): 582-590.
Fuller D Q. Pathways to Asian civilizations: Tracing the origins and spread of rice and rice cultures. Rice, 2011, 4(3): 78-92.
关键词:语言演化 汉藏语系 系统发生学 农业/语言扩散 群体扩张 ■
本文刊载于2019年第71卷第5期《科学》杂志
《科学》杂志于1915年1月在上海问世,
早年由任鸿隽,杨杏佛,胡明复,赵元任等学者编辑写作,
是我国历史最长的综合性科学刊物。
杂志定位为高级科普期刊,致力于科学知识、理念和科学精神的传播,科学与人文互动,历史和前沿并举,为提升我国全民科学素质和建设创新型国家服务。杂志现任主编为中国科学院院长白春礼院士,主办单位为上海科学技术出版社。