微生物多样性数据的可视化技巧
微生物多样性数据的可视化技巧
在数据中穿梭找寻答案,是我们在探索微生物世界的过程中必不可少的一环。然而,单调的数据分析报告是否让你感觉枯燥乏味?这时候数据可视化的技术可就要来大展神通咯!利用图表和图形唤醒沉睡的数据,科学与艺术的搭配,让数据变得直观明了,令你的研究结果可大放异彩!
多样性分析往往是我们在得到物种丰度表格后做的第一个基础分析,可以探究不同组之间的多样性差异,进一步延伸出更关键的科学问题。一般来说,我们可以将其分为α-多样性分析和β-多样性分析。
α-多样性:通常用来描述单个样本中物种的丰富度和均匀度。可以揭示不同生境或实验处理条件下微生物群落的复杂性和稳定性。常用一些指数去表征,包括Shannon,Simpson以及Chao1等。
β-多样性:β-多样性描述的是不同样本间的物种组成差异,反映了生物群落在空间或时间上的变化。可以探究不同环境因素如何影响生物群落结构的变动。β-多样性分析通常包括计算样本间的距离(如Bray-Curtis距离或Jaccard距离),然后使用这些距离矩阵进行排序分析,如主坐标分析(PCoA)或非度量多维尺度(NMDS)。
对于alpha多样性一般使用箱线图或者柱状图进行展示,并加上对应的统计检验结果。beta多样性的可视化一般是通过上面讲到的距离算法以及排序后,取结果的1/2轴进行二维散点图进行展示,将不同颜色映射到分组上,一般会加上一些辅助图形以便更好看出规律。
在区分明显的分析结果中,可以使用置信度椭圆或者点连线多边形进行平面绘制。但在区分不明显的分析结果中,一般使用质心-样品点连线的方式,以获得更好的区分度。
代码:
# alpha
ggplot()+
geom_boxplot()+
geom_signif()# 加统计检验标注
# beta
ggplot()+
geom_point()+
stat_ellipse()+# 加置信度椭圆,level参数指定阈值
geom_segment()+ # 可以绘制质心向样品点连线
geom_encircle() # 绘制外点连线
接下来我们结合一些文献图表案例讲解,如何去展示微生物多样性。
图1:婴儿出生后1年内肠道细菌群落的相关分析
上面案例是关于婴儿出生后1年内肠道细菌群落的相关分析,有第3个月取样点和第12个月取样点。图1A使用箱线图展示了α多样性(Shannon指数)和物种丰富度(Chao1指数)从3个月到12个月的显著增加,而图1C是图1A的另一种表现形式,作者使用了对应关系的样本进一步揭示了α多样性的变化趋势。图1B则展示了β多样性的减少(第12个月的95%置信度椭圆小于第3个月的,越集中),说明12个月大的婴儿间微生物组成差异的降低。
在一些分析中,也可以不使用排序,而直接使用距离去表示样品间差异。
低镉品种 XS14 和杂交品种 YY17 在块土、根际土、根表面和内生圈四个生态位的细菌群落差异。图c使用Bray-Curtis距离和NMDS排序, XS14和YY17均根据生态位形成不同的簇,在两侧加上密度分布,可以直观看出在NMDS1轴上具有更好的区分。图d则是使用组内样品的Bray-Curtis距离作为Y轴,可以看出与 YY17 相比,XS14 的细菌群落在除了块土之外的生态位中差异相对较高,表明XS14在根相关生态位中拥有更复杂和多功能的微生物群落。
而对于辅助图形的选择一般倾向于使得分组间的规律更明显的类型。
上面案例是关于植食昆虫微生物组的相关研究,基于Bray-Curtis和NMDS分析植物群落对土壤、毛虫肠道、根系、植物叶片细菌群落的影响(图a-d )以及植物群落对土壤、毛虫肠道、根系、植物叶片真菌群落的影响(图e-h)。作者这里使用了质心-样品点连线的辅助线,并放大质心点的大小,会比使用椭圆更直观地展示分组间的规律。
下面我们使用e图的模拟数据进行绘制,看看不同的辅助图形的效果:
library('vegan')
library('ggplot2')
library('dplyr')
library("ggalt")
# NMDS结果可以通过metaMDS函数得到
# 这里直接读取模拟数据
pic_e_data = read.csv("./pic_e_sactter_data.txt",sep = "\t",header = T)
# 准备中心点数据
# 需要先计算质点,为各分组的均值
# 计算每个分组的质心
centroids <- pic_e_data %>%
group_by(group) %>%
summarise(cent_NMDS1 = mean(NMDS1), cent_NMDS2 = mean(NMDS2))
# 将质心数据添加到原始数据框中,匹配对应分组
pic_e_data <- pic_e_data %>%
left_join(centroids, by = "group")
head(pic_e_data)
# NMDS1 NMDS2 group cent_NMDS1 cent_NMDS2
#1 -1.50 0.1 g1 -0.3735294 -0.09470588
#2 -1.00 0.2 g1 -0.3735294 -0.09470588
# 绘制一个散点图,按分组group进行着色
p0 <- ggplot(pic_e_data, aes(x = NMDS1, y = NMDS2, color = group)) +
geom_point()+
labs(x = "NMDS1", y = "NMDS2") +
theme_bw() +
theme(panel.grid.major = element_blank(),
panel.grid.minor = element_blank())
# 添加0.95置信椭圆
p1 = p0 + stat_ellipse(type = "norm", level = 0.95, linetype = "dashed", size = 1)
# geom_encircle 外点连线
p2 = p0 + geom_encircle(s_shape=1, expand=0)
# 质心-样品点连线
p3 = p0 + geom_segment(aes(xend = cent_NMDS1, yend = cent_NMDS2)) +
geom_point(data = centroids, aes(x = cent_NMDS1, y = cent_NMDS2), size = 5) # 加粗显示质心
可以看到,对于此数据来说想体现分组间的差异规律,最好是使用质心-样品点连线作为辅助线。
我们的旅程从数字的海洋跃起,现在正停泊在了悦目的视觉码头。通过可视化技术,您的数据不再是晦涩难懂的数字,它们将变成讲述生命故事的图符,每一张图表都展示了自然界的复杂性与和谐。快来做笔记,开始你的可视化之旅吧!
参考文献:
[1] Mercer E M, Ramay H R, Moossavi S, et al. Divergent maturational patterns of the infant bacterial and fungal gut microbiome in the first year of life are associated with interkingdom community dynamics and infant nutrition[J]. Microbiome, 2024, 12(1): 22.
[2] Hannula S E, Zhu F, Heinen R, et al. Foliarfeeding insects acquire microbiomes from the soil rather than the host plant[J]. Nature Communications, 2019, 10(1): 1254.
[3] Cheng Z, Zheng Q, Shi J, et al. Metagenomic and machine learning-aided identification of biomarkers driving distinctive Cd accumulation features in the rootassociated microbiome of two rice cultivars[J]. ISME Communications, 2023, 3(1): 1-13.