印欧语系与人类语言发源地
印欧语系与人类语言发源地
世界上一半的人所使用的语言都起源于黑海附近的一小群人。他们到底是谁,现在越来越清楚了。
图片来源:Russell Cobb
语言学与考古学的世纪之争
几十年来,语言学家和考古学家一直在争论最早的印欧语言是在何时何地使用的。当今世界上几乎有一半的人使用印欧语,这种语言的起源可以追溯到几千年前的单一母语。英语、俄语、印度斯坦语、拉丁语和梵语等不同的语言都可以追溯到这种祖先的语言。
在过去的几百年里,语言学家们已经弄清了许多关于第一种印欧语言的情况,包括它所使用的许多词汇和一些语法规则。在此过程中,他们对谁是最初的印欧语使用者、他们在哪里、如何生活以及他们的语言如何广泛传播等问题提出了理论。
大多数语言学家认为,这些语言的使用者是大约 6000 年前生活在乌克兰和俄罗斯西部草原上的游牧民。但也有少数人认为,这种语言的起源要比这早 2000 到 3000 年,即在安纳托利亚(今土耳其境内)的一个农民社区。现在,一项利用生物进化技术进行的新分析支持后者,尽管大草原在后来扮演了重要角色。
新分析中使用的计算技术在语言学家中引起了激烈的争议。但它的支持者说,它有望为这一领域带来更多的定量严谨性,并有可能将关键日期推到更远的过去,就像放射性碳测年在考古学领域所做的那样。
印欧语研究的历史脉络
要了解发生了什么,不妨先看看印欧语言研究是如何发展起来的。16 世纪,随着旅行和贸易使欧洲人接触到更多的外国语言,学者们对语言之间的关系以及它们的起源地越来越感兴趣。18 世纪末,驻印度的英国法官威廉-琼斯爵士注意到梵语、拉丁语和希腊语在词汇和语法上的相似之处,这绝非偶然。
历史语言学家已经重建了印欧语祖先的大部分语法和词汇,我们甚至可以拼凑出对话的声音。例如,英语单词 “father ”在梵语中是 “pitar”,在拉丁语和希腊语中是 “pater”。“兄弟 ”在梵语中是 “bhratar”,在拉丁语中是 “frater”。虽然琼斯并不是第一个注意到这些相似之处的人,但他提出的 “语言一定有共同的起源 ”这一观点,推动了一场比较各种语言并追溯其关系的运动。
1882年,雅各布-格林提出了后来被称为 “格林定律 ”的理论,从而取得了重大进展。格林兄弟收集并出版了《格林童话》。但除了是民俗学家,雅各布-格林还是一位重要的语言学家。格林发现,随着语言的发展,声音会发生有规律的变化,这有助于理解语言之间的关系。例如,印欧语中 “二 ”的发音是 “dwo”。但 “dwo ”是许多单词中的一个,这些单词的首字母 “d ”在传入英语和德语的共同祖先时变成了 “t”。后来,在现代德语的祖先中,“t ”音变成了 “ts”。因此,印欧语单词 “dwo ”在英语中变成了 “two”,在现代德语中变成了 “zwei”(读作 “tsvai”)。其他以 “d ”音开头的单词也有类似的表现。学者们发现了很多这样的音变模式,每种模式都遵循不同的规则,因为一种语言会衍生出另一种语言。
除了这些音变,语言学家还研究单词是如何构成的,例如英语是如何加上一个 “s ”来使单词成为复数的。他们还研究单词的排列方式,例如英语将主语放在动词之前,将动词放在宾语之前。当然,他们也会研究共享词汇。通过比较不同语言的所有这些特征,语言学家能够绘制出语言之间的后裔关系图,并将它们放入显示其关系的家族树中。
如今,语言学家们对印欧语系的基本情况以及它们之间的关系达成了广泛共识。他们一致认为,被称为原印欧语的原始语言分裂成 10 或 11 个主要分支,其中两个分支现已灭绝。他们还普遍同意将语言归入主要分支。例如,他们知道意大利语分支产生了拉丁语,而拉丁语本身又发展成了法语、西班牙语和意大利语等罗曼语。日耳曼语支发展出了德语、荷兰语和英语等语言。印度-伊朗语支则产生了印地语、孟加拉语、波斯语和库尔德语等语言。
原印欧人的生活方式
通过追溯语言变化的源头,语言学家推断出了原始原印欧语的许多基本特征,包括一些词汇、单词的构成方式以及发音方式。许多语言学家认为,他们甚至找到了最早的原印欧人可能生活方式的蛛丝马迹。
例如,原印欧语中有一个 “车轴 ”词、两个 “车轮 ”词、一个 “马具-杆 ”词和一个表示 “车辆运输 ”的动词。考古学家知道,车轮和车轴技术发明于大约 6000 年前,这表明原印欧语的历史不会比它更久远。如果原印欧语的历史更久,换句话说,如果原印欧语在有车轴和线束杆的词汇之前就已经开始分裂成其他语言,那么它的子语言就必须为这些东西发明自己的词汇。它们使用相同词汇的事实表明,分裂是在这些技术开发出来之后才开始的。
语言中的其他词汇表明,最早使用印欧语的人可能熟悉马匹、牛羊饲养、乳制品、羊毛、蜂蜜和蜂蜜酒。他们似乎有酋长(“reg ”一词就是我们英语中的 “regal”),而且可能是父权制的(他们的 “姻亲 ”一词只适用于新娘一方的家庭,表明丈夫的家庭被认为是主要的)。
许多语言学家认为,这些词汇描绘了使用马匹和马车的游牧民族的形象。结合大约 5000 年前人们从草原迅速分散到中欧的遗传学证据,他们得出结论:印欧语言走出草原,与牧民一起传播。
有一种理论认为,印欧语可能是由牧民乘坐马车传播的,比如安纳托利亚青铜时代早期的铜器模型。/图片来源:埃迪斯-佩里-查普曼基金,1966 年/公有领域
1987 年,剑桥大学考古学家科林-伦弗鲁(Colin Renfrew)否定了印欧语源于牧民的说法。伦弗鲁推断,印欧语言的急剧传播一定需要更大的推动力,而不是与零散游牧民群体的接触所能提供的。伦弗鲁认为,要实现单一语言在从爱尔兰到印度的整个地区占据主导地位的重大转变,需要更强大的力量。
他在农耕的传播中找到了这股力量。简单地说,随着人们开始从事农业生产,他们的人口增长速度比他们的狩猎和采集邻居更快。随着农耕的扩展,语言也随之发展。考古证据显示,农耕开始走出安纳托利亚的时间比牧民走出草原的时间早了大约 3000 年。
因此,伦弗鲁得出结论,农民才是印欧语传播背后的真正力量。当牧民开始迁徙时,他们遇到的农民已经在说印欧语了。伦弗鲁在很大程度上否定了草原假说所依据的语言学推理。他说,“轮子”、“马车-杆子 ”等词的共性可以用平行转换来解释,不同的语言在创造一个新词时会借鉴相同的基本含义。例如,原印欧语中 “轮子 ”一词的原意似乎是 “圆 ”或 “转 ”的意思。不同的语言可能继承了这一基本含义,并在创造自己的车轮词时独立地借鉴了这一含义。同样,如果表示马车杆的 “thill ”一词具有棍棒或杆子等更广泛的含义,那么它也可能被不止一种语言所采用来表示马车杆。
计算系统发生学的突破
诸如此类的论证促使一些语言学家尝试用更量化的方法来重建印欧语系的历史。为此,他们借鉴了生物学中常用的一种技术,根据可测量的特征来构建进化树。他们的方法被称为计算系统发生学,将语言视为不断进化的系统,类似于生物有机体。但是,语言学中的技术不是像生物学中的计算系统发生学那样追踪 DNA 的变化,而是追踪词语的变化。具体来说,大多数分析都在研究在不同语言中具有相同含义的单词的模式,这些单词可以追溯到相同的原印欧语词根。这些模式越相似,一般就认为语言之间的关系越密切。
虽然这听起来像语言学家长期使用的语言树,但计算系统发生学产生的语言树远没有那么主观: 这种方法遵循严格的算法和明确的规则。从本质上讲,计算机程序的工作原理是绘制一棵语言树,并根据所有数据和假设估算出该语言树正确的概率。然后,程序对该语言树进行一次修改,并比较概率得分,保留概率较高的语言树。这个过程不断重复,有时甚至重复数百万次,最终形成一组最有可能的语言树。
这些树显示了语言之间的密切联系。为了估计语言起源和分化的时间,研究人员还根据专家的最佳估计,向计算机程序提供了他们认为不同语言存在的时间。例如,拉丁语存在于大约 2050 年前,古冰岛语存在于大约 800 年前,迈锡尼希腊语存在于大约 3350 年前。计算机程序利用这些锚定日期进行时间估计,包括印欧语的最终起源日期。
计算结果可与语言使用地点的历史记录相结合,帮助绘制出语言在地理上传播的可能地图。还可以将这些日期与考古记录和古人类 DNA 研究结合起来,看看印欧语是起源于早期的农耕时代,还是起源于后来的草原时代。
新研究的发现与争议
2012 年发表的一份分析报告指出,印欧语起源于大约 9000 年前的安纳托利亚,支持印欧语起源于农民的理论。但就在三年后,另一个研究小组利用大致相同的数据得出结论,印欧语起源于距今仅 6000 年的大草原,从而支持了相反的观点,即牧民是最早使用印欧语的人。两个研究小组怎么会从如此相似的词汇表中得出如此不同的结论呢?
印欧语的两种可能起源。大多数历史语言学家倾向于上图所示的起源,即语言起源于大约 6000 年前的大草原。少数人则认为印欧语起源于大约 9000 年前的农民。
赫加蒂深入研究后发现,问题出在这两项早期分析所使用的数据集上,该数据集主要基于耶鲁大学语言学家伊西多尔-戴恩(Isidore Dyen)在 20 世纪 60 年代最初建立的数据集。戴恩的数据集对于戴恩正在进行的研究来说并不是问题,但当用于新的计算技术时,它却让研究结果大打折扣。当研究人员有兴趣追踪的每个词根意义都有一个单词时,计算系统发生学的效果最好。但是,例如 “dirty ”这个词,在英语中可以有很多同义词,包括 “filter ”和 “unclean”。戴恩数据集包含了某些语言中某些单词的同义词,但不包括其他语言中的同义词。
赫加蒂意识到,如果包含任何同义词,都会增加新计算技术使用数据集的难度。但是,同义词数量不一致--有些语言的同义词数量多,有些语言的同义词数量少--确实会影响计算结果。“我说:'听着,我们必须从头开始重新建立这个数据库。我们必须做得更好,"Heggarty 说。
因此,他和他的同事们选择了 170 个他们想要追溯的核心词义--你会期望语言会保留的基本词汇,如计算数字、身体部位、颜色以及房子、山、笑和夜晚等词汇。然后,他们召集了一个由 80 多名语言学家组成的团队,让他们为 161 种印欧语言中的每一种语言确定每个概念的主词。只有这个词,而不是同义词,才会进入分析。
“赫加蒂说:”我们以一种前所未有的方式建立了一个高度一致的数据库。我们做了大量分析,以确保我们选择了最合适的含义。如果不尽职尽责,结果就不会有效。
当 Heggarty 的团队利用这个新数据库重新进行分析时,他们的发现与早先的农民起源理论基本一致,将起源地定位在大约 8000 年前的安纳托利亚。从那里,该语言的一些分支向东迁移,并产生了波斯语和印度斯坦语等语言。其他分支则向西移动,最终发展成希腊语和阿尔巴尼亚语。
但分析也承认,大草原作为大多数欧洲语言的第二故乡发挥了重要作用:一个分支从安纳托利亚北上到大草原后,从那里辐射到北欧,诞生了日耳曼语、意大利语、盖尔语和其他欧洲语系。
不过,主流历史语言学家仍然对计算系统发生学持怀疑态度,尤其是对这一新成果。主要的批评意见是,这种方法主要依赖词汇,忽略了单词的发音和结构,如构成单词的词干、前缀和后缀。批评者还说,无论计算多么复杂,词义本身并不能提供足够的信息来得出确定的结论。哥本哈根大学历史语言学家托马斯-奥兰德(Thomas Olander)说,依赖关联词的问题在于,语言之间一直在相互借词。因此,仅仅看到两种语言之间有共同的词汇,并不意味着这两种语言来自同一个母体。例如,英语使用者现在使用 “寿司 ”一词,并不意味着英语和日语是相关语言。
相反,大多数语言学家倾向于相信音变--比如 “dwo”--“two”--“zwei ”的音变--以及单词结构的相似性,这些都可以表明它们源自哪种语言。奥兰德说,词义也可以是这种组合的一部分,但它们不能单独发挥作用。赫加蒂的树还有其他问题。例如,它显示凯尔特语言与日耳曼语言关系密切。但奥兰德说,大多数历史语言学家认为凯尔特语与意大利语的关系更为密切。“奥兰德说:”这同样是令人惊讶的事情。“我认为‘令人吃惊’可以翻译成‘这可能意味着他们的方法是错误的’”。奥兰德认为,凯尔特语和日耳曼语分支长期紧密共存并相互借词的可能性要大得多。他说,仅根据共享词义进行的分析表明,它们之间的关系比实际要密切得多。
剑桥大学的语言学家詹姆斯-克拉克森(James Clackson)也认为,原印欧语的早期年代以及该系统树的其他细节难以令人信服。但他认为计算系统发生学值得研究。他说,如果不出意外的话,最近的研究创建了一个非常高质量的新数据集,这对广大历史语言学家解决其领域中许多悬而未决的问题非常重要。与此同时,计算系统发生学的倡导者可能会继续推广他们的方法,并从更广泛的学科中寻求合法性。赫加蒂认为,随着主流语言学家对这一方法及其使用的高质量数据越来越满意,他们可能会更多地听取这一方法的意见。Clackson 就表示,他愿意被说服。“他说:”这是一个发展中的领域,值得关注。
本文原文来自《知识杂志》