问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

基于R语言群体遗传学:变异漂变模型、平衡杂合性和有效种群大小

创作时间:
作者:
@小白创作中心

基于R语言群体遗传学:变异漂变模型、平衡杂合性和有效种群大小

引用
CSDN
1.
https://blog.csdn.net/qq_51566832/article/details/140228760

到目前为止,我们已经确定在小种群中漂变发生得相对较快,这可能导致等位基因随时间的快速丢失。没有看之前博客的朋友可以先看看之前的博客:群体遗传学_tRNA做科研的博客-CSDN博客

变异漂变模型

为了描述这种随时间遗传变异的丧失,Sewall Wright(Wright 1922)提出了一个称为固定指数(F)的总结统计量,这导致了一整类描述性的F统计量的产生。固定指数可以通过观察杂合子的百分比、无性繁殖植物的自交率,或者如我们将在下面看到的,两个等位基因从系谱中同一等位基因副本下降的概率来推导。当查阅文献并看到计算同一事物的多种方法(或使用相同的符号和类似的词语来描述不同的事物)时,不要感到困惑。群体遗传学家并不擅长为量化现象的每一种新方法提出全新的符号。

我们知道,一个大小为N的二倍体种群有2N个可能的等位基因副本。假设种群大小是恒定的,那么一代中随机选择的两个等位基因都起源于前一代中该等位基因的同一个副本的概率是多少?对于两个等位基因来说,我们首先选择哪一个等位基因并不重要,但对于我们选择的第二个等位基因,我们感兴趣的是它与第一个等位基因来自完全相同的亲本副本的概率。这限制了第二个等位基因可能的来源,因此它只有1/2N的机会来自与第一个等位基因相同的亲本副本。当两个等位基因来自完全相同的祖先副本时,我们称之为同源遗传(identity-by-descent)或IBD。因此,我们从二倍体种群中随机抽样的两个等位基因相同的总概率是:

相反,两个等位基因不是来自前一代的同一个副本的概率就是

这是衡量遗传多样性的一种度量,通常被称为杂合性(H)。如果F是我们每代两个等位基因不相同的概率,那么H就是我们每代保持遗传多样性的概率。我们可以使用这些值来定义每代杂合性丧失的速率,通过量化从起始值开始的杂合性的预期相对变化。如果我们知道第g代杂合性的起始量Hg,那么在下一代预期的剩余杂合性是:

这个过程在每一代中重复,每一代的新H值都被1 - 1/2N所修改,所以我们可以从初始杂合性H0向前跳g代,如下所示:

当我们增加g,也就是对于g求极限,那么(1 - 1/2N)^g实际上收敛于欧拉常数e,所以我们可以从离散时间切换到连续时间近似:

我们可视化不同种群大小情况下的情况:

# 定义不同的群体大小
N <- c(10, 50, 100)
# 设定模拟的代数
gen <- 100
# 初始化遗传多样性
het_init <- 1.0
# 定义线条类型
line <- c(1, 2, 4)
# 定义线条颜色
colors <- c("orange", "black", "cyan")
# 计算每个群体大小下每一代的遗传多样性
# 使用指数衰减模型来模拟遗传多样性的减少
het <- sapply(1:gen, function(x) het_init * exp(-(x / (2 * N))))
# 创建一个空白的绘图区域,设置x轴和y轴的范围及标签
plot(x=NULL, xlim=c(1, gen), ylim=c(0, 1),
     xlab="Generations", ylab="Genetic diversity")
# 对于每个群体大小
for(i in 1:nrow(het)){
  # 在图中画出遗传多样性随代数变化的轨迹
  lines(1:gen, het[i,], col=colors[i],
        lty=line[i], lwd=2)
}
# 添加图例,显示不同线条对应的群体大小
legend(x="bottomleft", legend=N, inset=c(0, 1), xpd=TRUE,
       bty="n", col=colors, lty=line, lwd=2)  

从100%的H0开始,我们看到遗传多样性随时间缓慢而稳定地衰减。这种遗传多样性随时间的减少通常是遗传漂变的假设结果,而损失率受种群大小的影响杂合性的衰减是一个非平衡过程如果没有新的变异通过突变或迁移引入,我们预期变异最终会消失。然而,我们确实期望健康的种群能够存在于“突变-漂变平衡(mutation-drift equilibrium)”状态,这是一个种群足够大以至于其丢失变异的速度不会比积累新变异的速度快得多的点。这种平衡视角在思考一个变得比以前小得多的种群时很有用,以至于在突变-漂变平衡状态下存在的变异无法再维持。

一个例子是夏威夷乌鸦或‘alalā,它在野外已经灭绝,并在圈养中维持了几十年,种群大约有100个个体。

在这些情况下,由于遗传漂变,基因组平均一半的遗传变异(杂合性)预计会丢失的时间是多少?为了回答这个问题,我们可以解出g:

假设H0为2,Hg为1(也就是50%rest),我们可以解得g=138多,因此,在大约138代之后,预期仍有一半的原始变异存在(在种群大小恒定为100,没有自然选择,且所有个体都有同等繁殖机会的情况下)。

最后,对H(杂合率)变化的描述是一种确定性预期(Deterministic expectation)(或大量位点的平均值);然而,从模拟中应该清楚,对于一个单一位点,等位基因频率预期变化周围存在很大的方差。在思考和解释遗传漂变时,同时意识到这两种视角(单一位点和基因组平均)是很重要的。

由于漂变,代际间等位基因频率的方差是:

这有一定的道理,因为两个等位基因的漂变是二项分布的,而从二项分布抽样中预期的方差是

然而,看起来样本大小n或2N的位置似乎不正确。这是因为方差被重新缩放为一个占总范围2N的比例,需要注意的是方差是平方的

平衡杂合性和有效种群大小(equilibrium heterozygosity and effective population siza)

之前我们讨论了以小种群为例的的杂合性(H)衰减。然而,我们也可以讨论在突变-漂变平衡下的预期杂合性:新突变的输入速率(2μ)与遗传漂变导致的现有遗传变异的移除速率相抵消,我们写出变异与消除变异的漂变的平衡等式:

如果H非常小,那么1-H就=1,那么:

然而,预测的遗传变异水平通常与实际“普查”的人口规模不符。这引申出了有效人口规模(Ne)的概念;换句话说,就是在理想化(随机交配、繁殖概率相等、人口数量恒定)的人口中,能导致观察到遗传多样性水平的人口规模

人类就是一个完美例子。每个核苷酸、每代的突变率估计为10^-8的数量级。平均核苷酸杂合性——即人类DNA序列对的差异率,如果在一个个体中配对在一起就会形成杂合子——大约是每1600个DNA碱基对中有一个差异,或者说每个碱基对的差异率为0.0006(Stephens等人,2001)。求解Ne得到

因此根据我们的突变率和杂合性测量,我们可以计算出人类的Ne= 15,000 这表明,尽管人类实际的人口规模要大得多,但我们的遗传多样性相当于一个只有15,000个个体的有效种群。

这应该相当令人震惊。我们的遗传多样性意味着在任何给定的世代,地球上只有大约15,000个人类存活!然而我们的人口普查规模约为13亿人口;这怎么可能相差如此之大? 这其中有很多复杂性,但长话短说,其中一个主要因素是遗传变异可能会迅速丢失,但要通过缓慢的突变和遗传漂变重新获得则需要很长时间

为了说明这一点,让我们设想一个人口随时间在不同大小之间切换,N1的时间比例为t1,而剩余的时间比例为t2时为N2。当人口较小时,漂变会加速,而在较大时则会减慢。我们如何估计一个“有效”的恒定人口规模,使其具有与波动人口相同的总体遗传漂变速率呢?一种方法是将恒定人口的方差设置为变化人口的平均方差(之前提到的σ^2):

这种模式被称为调和平均数。有效人口规模预计等于随时间变化的各个人口规模的调和平均值。较小的数字对调和平均值的影响更大。在群体遗传学中,这意味着较小种群中加速的漂变可能具有主导性的持久影响。 这可以推广到任意数量的人口规模和相应的时间。

对于我们这个物种来说,这意味着在我们的过去,我们经历了一个少于15,000人的瓶颈期。其他人类种群基本上已经灭绝(除了在我们基因组的一小部分中存活下来),我们的数量也曾经危险地低,直到我们反弹回来,有兴趣的朋友可以看我们课题组去年发的Science文章-Genomic inference of a severe human bottleneck during the Early to Middle Pleistocene transition - PubMed (nih.gov)

重叠世代(overlapping generations)

最后一点需要注意的是重叠世代的问题。由于历史惯性,许多经典的群体遗传学都是基于离散的非重叠世代,即所谓的Wright-Fisher模型,这适用于一年生植物或某些类型的无脊椎动物。然而,许多物种更适合用连续时间建模,在任何给定时间都有一个年龄范围,个体死亡被个体出生所取代——这就是Moran模型,它在进化博弈论中很受欢迎——而不是一次整个世代。实际上,野生种群介于这两个极端之间;例如,即使存在重叠世代,个体在特定年龄范围内繁殖的可能性也更大。总的来说,除了调整变化率外,基本结果之间没有太大差异。例如,纯Moran模型中的遗传漂变速率是纯Wright-Fisher模型中漂变速率的两倍(等位基因频率在世代内而非世代间变化)。然而,如果存在极端的不均匀性,比如土壤中的植物种子库,“丢失”的等位基因可以通过较老种子的萌发而被重新捕获,有效种群大小增加。

我们现在已经相当关注等位基因频率的随机变化。

下一篇博客我们将开始讨论适应性进化和自然选择的问题!

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号