问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

微生物相对丰度数据分析:稀疏性、组成性和过度分散性

创作时间:
作者:
@小白创作中心

微生物相对丰度数据分析:稀疏性、组成性和过度分散性

引用
CSDN
1.
https://m.blog.csdn.net/H20230717/article/details/138482680

微生物相对丰度数据是生物信息学领域中的一个重要研究方向,其数据特点具有显著的稀疏性、组成性和过度分散性。本文将详细探讨这些特性及其对数据分析的影响,并介绍相应的处理方法。

微生物数据特点

微生物相对丰度数据具有三个显著的特点:稀疏性(Sparsity)、组成性(Compositional)和过度分散性(Overdispersion)。这些特点对数据的分析和解释提出了独特的挑战。

稀疏性(Sparsity)

即使在同一环境中,不同样本的微生物出现概率或丰度也存在显著差异,大部分微生物丰度极低。测序仪的检测极限进一步增加了微生物丰度(相对或绝对丰度)为零的概率。此外,比对所使用的数据库大小(即覆盖物种率)也会对最终的微生物丰度表达谱产生重要影响。因此,我们所获得的微生物丰度谱必然含有大量零值,这些零值可分为两类:真实的零值和误差导致的零值。

零值数量的多少构成了微生物丰度谱的稀疏性。在某些16S rRNA测序数据的OTU水平分析中,零值比例可高达80%以上。这种稀疏性导致常用的数据分析方法(如t-test或Wilcoxon检验)不再适用。为了解决这一问题,许多算法(如ANCOM的零值划分、metagenomeSeq的ZIP/ZILN模型)专门针对零值进行处理。处理后的数据矩阵经过对数比变换(如CLR变换)后,可以更好地满足后续统计分析的要求。

组成性(Compositional)

组成性数据的特点是服从simplex空间,即某个样本内所有微生物的相对丰度之和为常数(可以是1或100等)。这种数据内部元素之间存在相关关系,即一个元素比例的变化必然引起其他元素比例的变化。然而,在实际的微生物环境中,这种关联关系可能并不存在。为了解决组成性问题,人们提出了各种归一化方法,其中最常用的是对数比变换(log-ratio transformation),例如中心对数比变换(CLR):

$$
X_i = \log \left( \frac{x_i}{GeometricMean(X)} \right)
$$

经过对数比变换后,数据可以更好地对应到真实的多维变量空间,从而方便后续应用标准分析方法。

过度分散性(Overdispersion)

过度分散性的特征是方差远大于均值(Variance >> Mean)。传统的Poisson分布无法有效处理这类数据,因此许多现代方法采用负二项分布来拟合数据。

总结

下图总结了微生物相对丰度数据的主要特点及其处理方法:

参考文献:

  1. Statistical Analysis of Microbiome Data with R
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号