IBS和IBD的区别和计算方法介绍
IBS和IBD的区别和计算方法介绍
IBS(Identical By State,状态同源)和IBD(Identity By Descent,血缘同源)是遗传学中两个重要的概念,它们分别从不同角度描述了基因的相似性和亲缘关系。本文将详细介绍这两个概念的区别及其计算方法。
IBS与IBD的概念区别
IBS(状态同源):IBS指的是两个个体在某一基因座上拥有相同的等位基因,但这些等位基因不一定来源于同一祖先。换句话说,IBS是基于基因型相似性的度量,而不考虑等位基因的具体来源。简而言之,IBS是根据基因型相似性进行计算的,不考虑等位基因的来源。
IBD(血缘同源):IBD指的是两个个体中共有的等位基因来源于同一祖先。这些等位基因在遗传过程中未经重组而直接传递给后代,因此能够反映个体间的亲缘关系。简而言之,IBD是血缘同源,等位基因遗传过程中传递给后代,片段是不变的,需要考虑等位基因的来源。
IBD的计算方法
IBD计算,可以用系谱记录进行计算,计算亲缘关系A矩阵。例如,0.25是半同胞,0.5是全同胞或者亲子关系。人类的亲疏是根据IBD划分的,亲子关系和同父母的兄弟姐妹的IBD都是0.5,应该是人类中最亲的关系了。
IBS的计算方法
如何计算IBS矩阵呢?其实,Excel也可以计算,比如ID1和ID2之间的IBS相关系数,比较每个SNP的交叉数,比如SNP1,分别是TT和TT,那么就是2;如果是TT和TA,就是1;如果是TT和AA,就是0。统计一下总和,然后计算一下比值,比如10个SNP总数是20,统计的总和为9,那么IBS为0.45。
将上面的Excel表格的SNP数据,转为plink格式,方法见链接:Excel的SNP数据如何变为plink格式,运行代码:
plink --file file --ibs-matrix
结果如下:
$ cat plink.mibs
1 0.45 0.85
0.45 1 0.4
0.85 0.4 1
可以看到,ID1 VS ID2为0.45,ID1和ID3是0.85,和Excel计算的结果一样。
SNP数据计算IBD
因为官方文档写了呀:https://www.cog-genomics.org/plink/1.9/ibd
PLINK中使用 PI_HAT 值来推定IBD的值。该方法基于隐马尔科夫模型 hidden Markov model (HMM),通过矩估计(method-of-moments)来计算 IBD=1, 2或0 的概率。PLINK1.9中提供了--genome
的选项,以计算 PI_HAT。
不是直接计算的IBD,而是通过IBS进行推断的,经验值也是0.25是半同胞,0.5是全同胞。
同样的道理,如果是SNP数据计算的G矩阵(如何构建G矩阵-基因组亲缘关系矩阵(Genomic relationships matrix))也应该算是IBD矩阵,和系谱计算的亲缘关系A矩阵一样都属于IBD矩阵。
表型相似与IBS
这个是表型相似,按道理来说是IBS相似,不可能是IBD矩阵,因为不可能存在亲缘关系。这个图让我对我写的一大堆IBS和IBD的内容暴击了1000倍。