人类史前历史研究有着多种方法,通过考古学研究人类活动留下的痕迹,通过语言学研究人类语言在语音、词汇、文法上的历时变化,而通过遗传学可以探究史前人群间的亲缘关系。近年来,考古、语言和遗传学多学科交叉与深度融合,推进了我们对人类起源、演化和迁徙等重大科学问题的认识。
考古、语言和遗传学跨学科研究的历程
早在年,达尔文在《物种起源》一书中就曾预言:“如果我们能建立一个完好的人类谱系树,那么人类的谱系分布就可以为目前世界上各种语言提供最好的分类。”在之后几年,语言学家施莱谢尔(AugustSchleicher)采用生物学中的谱系树结构探索印欧语系(以下简称“印欧语”)中拉丁语、梵语和希腊语之间的亲属关系,开创了研究语言谱系理论的先河。以后的研究者们孜孜不倦地探索,使用不同方法来检验人类基因与语言演化的关系。近二十年来,演化语言学家借用生物学谱系发生学原理,使用贝叶斯系统发育方法,通过同源词和词法距离矩阵等构建了印欧语、南岛语和汉藏语系等的谱系树,对各语言的起源、分化和扩散历史作出推断。
在20世纪80—90年代,卡瓦利-斯福扎(LucaCavalli-Sforza)等发现用世界上不同人群的上百种经典遗传标记(如人类白细胞抗原等)构建的谱系树与世界语言的谱系树有非常高的相似性,两者只是在一些细微的节点上稍有差别,并且这些遗传特征与其地理区位存在良好的对应关系。他又综合了当时考古学、语言学和历史学上的发现,用现代族群的遗传变异数据去反推人类的史前迁徙历史,这成为了利用遗传学手段研究人类历史的开端。与卡瓦利-斯福扎几乎同时期,帕博(SvantePbo)开始尝试从古人遗骸中提取DNA。此后的三十年里,研究者们探索和建立了古DNA研究标准,新技术新方法也不断涌现,为考古学提供了新的研究维度,继碳十四之后带来了考古学的第二次革命。自年,新一代高通量测序技术的出现以及测序价格的不断降低给古DNA研究带来了革命性的改变,古DNA研究进入了古基因组学大数据时代。海量的古今人群基因组数据改写了我们对人类史前历史的认识。
语言是人类最为重要的交际工具和思维工具,同时人类又是语言演化的载体。考古学的文化传播理论认为,某种考古学文化可能与某个特定人群的活动相对应,而该文化发展与传播则与此人群的迁徙活动密切相关。在没有现代通信工具的史前时代,语言和文化的大规模传播多是经由人类的迁徙和流动来实现的。古DNA通过回溯人类的迁徙混合历程,并结合考古学和语言学证据,衔接起文化和创造并传播文化的人,为追溯印欧、汉藏和南岛诸多语言的起源传播以及考古学文化的扩散历史提供了重要参考。
印欧语的起源和跨大陆传播
印欧语的起源与扩散研究从首次提出至今已走过了近百年的历程,对印欧语起源的研究最早来自于语言学的探索,旨在为印欧语确定系属,以及为其他各语言确定语支。印欧语的起源及扩散路径是多学科间争议较大的一个重大而复杂的课题,目前主要集中于安纳托利亚假说和库尔干假说。安纳托利亚假说认为印欧语系的扩散与公元前年开始的安纳托利亚的农业经济扩张有关,并且由安纳托利亚语族是最早从原始印欧语中分化出来的,推断安纳托利亚语必定与印欧语的起源地有关,之后随着语言传播人群的人口增长,印欧语随着人群迁徙而扩散到欧洲,替换了沿途的狩猎采集者的语言。库尔干假说则认为印欧人起源于东欧大草原上的颜那亚文化(Yamnayaculture),这是一个从铜石并用时代晚期到青铜时代早中期的考古学文化,时间可追溯到公元前—年。从语言学上看,除现已灭绝的安纳托利亚语之外,其他印欧语言都保留着与车子(wagon)有关的同源词汇,说明印欧语的传播可能受到使用马车的颜那亚人群的重要影响。古DNA证据表明,欧洲在一万年以内至少经历了两次人群大融合:第一次是安纳托利亚地区的农业人群随着农业扩张在—年前开始向西扩散进入欧洲东部,形成欧洲早期的农业人群;第二次是与青铜时代早期颜那亚文化有关的东欧草原游牧人群在年前向西涌入欧洲腹地,同时向东越过中亚,横跨阿尔泰山,直达蒙古高原,随后又向南亚传播。从基因证据来看,颜那亚人的迁徙路径与假设的印欧语扩散路线更一致。如果印欧语是伴随着青铜时代的草原人群而起源和传播的,那如何解释安纳托利亚语是印欧语中最古老的分支呢?我们发现与北高加索地区年前铜石并用时代的古人群相比较,颜那亚文化人群和所有后来的草原游牧人群都带有先前未被发现的东欧农业人群相关的祖源成分,原始的印欧语就很有可能是由安纳托利亚进入东欧的早期农业人群带到欧亚草原上的,这为高加索山南部地区到安纳托利亚一带是印欧语的起源地提供了可能性,并为印欧语的早期分支是安纳托利亚语作出了解释,而印欧语的后续传播却是由青铜时代草原人群的迁徙所驱动的。
汉藏语系与农业的共扩散
汉藏语系是仅次于印欧语的世界第二大语系,有15亿以上使用者且地理分布广,对东亚其他语系形成和发展影响较大,厘清其起源和演化历程显得尤为重要。目前,针对汉藏语系的起源主要有两种观点:一是其起源于距今—年前的中国北方,另一种观点则认为它起源于距今年前的中国西南部或印度东北部。演化语言学家通过构建汉藏语的系统发生树,认为汉语和藏缅语存在同源关系,支持汉藏语系的北方起源假说,但在汉藏语系的起源和分化时间上有分歧。张梦翰等通过对种汉藏语系语言的词根—语义组合进行建模分析,运用贝叶斯系统发生学方法推算出原始汉藏语最初分化于约年前的中国北方黄河流域,与仰韶文化有关,藏缅语分化时间为距今年前,对应的是马家窑文化时期。沙加尔等对50种汉藏语系语言进行语音对应和同源词识别,推断出汉藏语起源于年前中国北方种植粟黍的农民,并随着粟黍农业的传播向西扩展到喜马拉雅山脉,这将汉藏语系的起源与晚期的磁山文化和早期的仰韶文化联系起来。伦敦大学学院张涵之等推算汉藏语人群的最初分化发生在距今约年前,与黄河流域以粟黍为基础的农业开始和环境的显著变化相吻合。考古学研究发现黄河上游地区的黄土高原与青藏高原存在密切关系,农业技术革新是促成史前人类大规模永久定居在青藏高原的主要动力,来自黄土高原西部的粟黍农业及其人群沿黄河及其支流河段逐步扩散至青藏高原东北部并逐步走上青藏高原。从遗传学上看,汉藏语人群拥有共同的高频单倍群O-M,其下游支系Oα-F5单倍群在汉藏语人群中高频分布,与新石器时期黄河流域中上游的农业人群在距今约年前的扩张有关。研究人员提取和测序了黄河流域新石器时代至铁器时代的石峁、齐家、仰韶和龙山文化时期十余处遗址出土的人骨样本的古基因组,证实了黄河流域中上游新石器时代中晚期的农业人群具有遗传连续性,这与考古学文化上观察到的仰韶文化及其人群西向扩张的过程相吻合,而且这一农业人群在遗传学上是汉语和藏缅语人群共同的祖先人群,这也与语言学和考古学的证据相符。
南岛语系(族)的起源与快速扩张
南岛语系(族)包括约种语言,主要分布在中国台湾地区、东南亚以及南太平洋群岛,其中中国台湾地区的南岛语言除了保存最多原始南岛语特征外,语言之间的差异也最大。关于南岛语系(族)起源与扩散,日据早期日本学者鸟居龙藏、宫本延人等都曾提出“南来”的看法,认为台湾少数民族系由东南亚的印尼、马来等北上而移住于台湾。而林惠祥先生早在20世纪30年代就提出“中马同源论”,即中国东南地区古越族与东南亚马来族同源,马来人在古代也是由大陆南下。20世纪60年代以来,国际学术界在南岛语系(族)起源研究上开始尝试语言学、民族学和考古学等多学科综合研究,张光直等就结合考古学与语言学方法,开始把华南的绳纹陶文化与南岛语人群的祖先联系起来。年,格雷(RussellGray)等运用贝叶斯系统发生学方法来构建南岛语谱系树,其树形结构支持南岛语大约在距今年前起源于台湾,并在一系列的定居停留和对外扩张中迅速地穿越太平洋。近年来,通过分析距今—年的福建奇和洞、昙石山、溪头村和台湾亮岛、锁港、汉本和公馆等遗址的古人基因组,研究者们发现分布在台湾的新石器时代晚期至铁器时代人群和现今台湾南岛语人群有着遗传连续性,和华南的现代侗台语人群之间也有着紧密的遗传亲缘性,这表明南岛语相关的古代人群在遗传学上起源于华南大陆沿海地区。研究者们还陆续对距今—年前的亚洲东南至太平洋沿线的瓦努阿图、汤加、关岛、俾斯麦群岛等地区包括拉皮塔文化在内的古人遗骸进行采样和DNA分析,阐明了来自亚洲大陆东南的古代人群以“快车模式”(expresstrain)迅速到达关岛和远大洋洲,土著巴布亚人群的相关血统是在距今年前左右到达瓦努阿图、汤加的,然而作为外来的巴布亚语言并没有取代南岛语言。
反驳泛欧亚语随农业传播
印欧语、汉藏语和南岛语的起源和扩散是考古、语言和遗传学交叉研究的范例,但在跨学科交叉研究中也有案例引起了极大的争议,比如泛欧亚语随农业扩张假说。罗比茨(MartineRobbeets)等提出了泛欧亚语言(Transeurasian)这一概念,它既包含了传统阿尔泰语系的突厥语族、通古斯语族和蒙古语族,还包括了系属不明的日语和朝鲜语。罗比茨构拟了与人类生存密切相关的动物和农作物词汇,如马、谷子、大麦、小麦、稻子等。通过语言学的相对年代与考古学的绝对年代相校对,辅以遗传学证据,她认为,公元前—年,位于内蒙古东部和满洲南部的兴隆洼文化和赵宝沟文化作为中国东北最早的新石器时代文化的代表,是说原始泛欧亚语的人群,而新石器时代晚期西辽河农业人群的扩张促成了原始泛欧亚语的传播,相关内容发表在Nature上。然而,罗比茨等所列举的考古、语言和遗传三方面的证据都存在严重问题,他们对语言数据的分析不符合历史语言学学术传统要求的最低标准,也与他们自己陈述的合理对应原则相矛盾。他们在遗传学分析上以偏概全,将包括中国东北在内的北方古代农业人群对日韩人群的遗传贡献解读为对全部泛欧亚语人群的形成都有贡献。我们对遗传数据的重新分析发现其并不支持突厥语、蒙古语和通古斯语的传播是由农业人群驱动的,现有数据也无法证实农业分两波向朝鲜半岛传播。另外,由于他们的考古数据不适用于系统发育分析,我们未能重复出他们论文的主要结论。目前来看,既没有确凿的证据表明存在泛欧亚语系,也没有证据将突厥语族、通古斯语族、蒙古语族、日语和朝鲜语这五类语言与西辽河地区的新石器时代农业扩张联系起来,这些语言之间相似的特征更可能是接触而来而不是同源共祖由谱系遗传而来的。
关于考古、语言和遗传学对证研究的思考
由上述研究案例可看出,考古、语言和遗传学对证研究的关键在于时间推断和遗传对照分析。在时间推断上,考古学可使用碳十四测年来精确判定考古遗址和古人遗骸的时间,语言学可采用贝叶斯系统发生学方法推算语言分化时间来对应相关的考古学文化,而遗传学可较为精确地计算Y染色体和线粒体的谱系分化时间,同时还可以通过有确切年代的古人遗骸的DNA来与考古学建立直接联系。理想情况下,考古、语言和遗传学三者得出的时间应大概一致,但考古学文化延续、语言分化与人群遗传分化这三件事情不一定同时发生,或者很大概率上不是同时发生而是有时间先后的,而且因不同学科研究范式、材料和方法不同,在时间估算上也多有差别。比如,在汉藏语系问题上,通过Y染色体Oα-F5单倍群估算的汉藏人群分化时间约为—年前,而张梦翰等通过语言学数据推算出原始汉藏语最初分化时间和藏缅语族的内部分化时间大约在年前和年前,分别对应的是仰韶文化和马家窑文化;沙加尔等则推断出汉藏语起源于约年前,与晚期的磁山文化和早期的仰韶文化联系起来。不同团队所选取的语言数目和语言特征数量不同,可能造成了计算所得出的时间存在差异,而且一般来说两种同源语言分开时间如果超过—年就无法有效分辨同源词,也就无法准确估算时间。但从遗传学角度来看,黄河流域中上游新石器时代的农业人群对现今汉藏人群都有着最主要的遗传贡献,这是独立于考古学和语言学得出的DNA分析结果,为考古学和语言学上的汉藏同源论断及汉藏可能的起源地提供了佐证。
现今各族群由于广泛的接触交流,在语言上有大量的接触和借用,在遗传上也有着高度的融合,而古今人群的遗传对照分析可以通过尚未混合的古代人群遗传成分来直接推断现今族群的混合历程。比如以新石器时代早期为一个时间节点,选取东亚地区在遗传学上有代表性的人群包括黑龙江流域的狩猎采集人群、黄河流域的粟黍农业人群以及华南地区可能跟稻作农业有关的古代人群,我们发现新石器时代晚期的红山文化人群是由黑龙江流域的狩猎采集人群和黄河流域的粟黍农业人群混合形成的,而新石器时代晚期的中原地区农业人群也开始受到华南地区可能跟稻作农业有关的古代人群的遗传影响。我们也可以把时间节点拉回现代,比如华南的侗台人群就带有大量的来自黄河流域粟黍农业人群以及苗瑶语人群的特征性的遗传成分。遗传上的古今对照分析为语言的接触混合以及考古学文化的变迁提供了人类生物谱系的证据。
近代以来,学术发展日益精细化,学科门类越来越多,这是学术发展和繁荣的重要表现,但学科的分化和专门化也造成了学科之间的“壁垒”。目前国内关于人类史前历史的研究往往局限于人文社会科学的范畴,缺乏自然科学有效的实证分析,其可信度也受到不同程度的质疑,而自然科学方法的加入能极大增强人类学研究的精确性。习近平总书记在中共中央政治局就深化中华文明探源工程进行第三十九次集体学习时指出:“我们运用生物学、分子生物学、化学、地学、物理学等前沿学科的最新技术分析我国古代遗存,使中华文明探源有了坚实的科技分析依据,拓展了我们对中国五千多年文明史的认知。”这充分体现了将生物学新技术新方法应用于考古学交叉研究的重要性。通过考古、语言和遗传学的跨学科交叉研究解析人类史前历史,把自然科学的技术方法全面地引入考古学和语言学研究中,综合多学科视角,定性研究与定量研究相结合,全方位、多角度探索族群起源和文化演变中的关键问题,我们能够让人类生物遗传谱系的研究与考古和语言文化谱系互相借鉴、互相印证、互相补充,从而进一步回答好中华文明起源、形成、发展的基本图景、内在机制以及各区域文明演进路径等重大问题。
(本文系国家社科基金重大项目“多学科视角下的汉藏语系的起源和演化研究”(21ZD)阶段性成果)
(作者系厦门大学人类学研究所所长、教授、教育部青年长江学者)
来源:中国社会科学网-中国社会科学报 作者:王传超