问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

一文详解PCA、PLS-DA与OPLS-DA:多元统计分析方法全攻略

创作时间:
作者:
@小白创作中心

一文详解PCA、PLS-DA与OPLS-DA:多元统计分析方法全攻略

引用
1
来源
1.
http://www.smi-wh.cn/news.asp?id=347

在生物医学研究中,多元统计分析是揭示数据背后规律的重要工具。其中,主成分分析(PCA)、偏最小二乘法判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)是最常用的三种方法。它们各自有何特点?如何进行分析?本文将为您详细解答。

什么是PCA、PLS-DA、OPLS-DA?

主成分分析(Principal Component Analysis,PCA)

主成分分析是一种无监督的多变量统计分析方法,通过线性变换将多个变量转化为较少的重要变量。PCA可以初步了解各组样本之间的总体代谢物差异和组内样本之间的变异度大小,并可通过分析QC样本进行质量控制。

偏最小二乘法判别分析(Partial Least Squares Discrimination Analysis,PLS-DA)

PLS-DA是一种有监督的判别分析方法,能够按照预先定义的分类最大化组间的差异,获得比PCA更好的分离效果。

正交偏最小二乘判别分析(Orthogonal PLS-DA,OPLS-DA)

OPLS-DA综合了PLS-DA和正交信号过滤(OSC)技术,能够把与分类无关的信息最大程度从原始矩阵分离,从而将最相关的因素集中到第一个主成分上。OPLS-DA通常用于两组的对比,找差异物质。

如何进行PCA、PLS-DA、OPLS-DA分析?

1. 进入在线分析软件

2. 上传数据

数据类型选择浓度;数据格式选择样品在每一列(未配对),可根据实验数据实际情况选择样品在每一行或是每一列、配对或未配对实验;选择上传的文件,提交即可。

2.1 上传文件格式说明

  • 有样本名和样本分组信息,文件格式需为制表符分割的TXT文件或逗号分割的CSV文件。
  • 靶标中不能有希腊字母α、β等,用alpha、beta等替换。

示例1:

3. 数据处理

3.1 选择分析项目

4. 图形解读

① PCA图形解读

碎石图(scree plot)即贡献率图,显示各主成分的特征值贡献率。如图中显示PC1贡献率为74.2%,PC2贡献率为11.1%...

PCA得分图有二维和三维两种展示形式,在二维得分图中横坐标PC1表示第一主成分,纵坐标PC2表示第二主成分,百分比表示该主成分对数据集的解释率,圆圈表示95%的置信区间;图中的每个点表示一个样品,同一个组的样品使用同一种颜色表示,Group为不同的分组;PCA得分图可以让我们非常直观地看出各个样本之间的相似性。


荷载图:把主成分1和主成分2的荷载点出一个二维图以直观的显示它们如何解释原来的变量的,这个图就叫做荷载图。每个点对应该物质对第一主成分和第二主成分的相关系数。相关系数的绝对值越大说明主成分对该变量的代表性越大。

第一、二、三主成分3D绘图在三维得分图中,增加了第三个主成分,此时X轴表示PC1,Y轴表示PC3,Z轴表示PC2。

根据主成分1和主成分2画出样本分布的散点图。横纵坐标是主成分,各个向量代表原特征。向量在主成分上的投影可以代表两者的相关程度。点之间的距离,反映它们对应的样本之间的差异大小,两点相距较远,对应样本差异大;两点相距较近,对应样本差异小,存在相似性。

② PLS-DA图形解读

VIP ( Variable Importance in Projection scores )变量重要性投影,通过变量投影重要度衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。通常以VIP值>1作为筛选标准。

交叉验证:R2是相关性系数,表示这个模型的拟合性好不好,是一个定量的测量(范围0-1),意味着所建立的模型能在多大程度上代表真实的数据,一般当R2在0.7,0.8表示模型解释能力较好。Q2表示PLS-DA模型的预测效果,一般Q2大于0.5表示预测能力较好,并且R2与Q2的值应该比较接近。

模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示100次permutation Test中100个模型的准确率的频数,箭头表示本PLS-DA模型准确率所在的位置。

③ OPLS-DA图形解读
横坐标表示OSC过程中的主要成分的得分值( Tp ) ,所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO),所以从纵坐标上看出组内的差异(组内样本间的差异)。

S-plot图的横坐标表示主成份与代谢物的协相关系数,纵坐标表示主成份与代谢物的相关系数。

S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。

模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示100次permutation Test中100个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置。其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差。通常情况下, R2、Q2高于0.5较好,高于0.4即可接受。

从图中可以看出Q2为0.994 , R2Y为1 , R2X为0.685 , Q2和R2Y的P值均小于0.01,说明permutation Test中随机分组模型没有结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。

绘图平台

https://www.metaboanalyst.ca/
MetaboAnalyst是一个代谢组学数据分析的综合平台。在当前的MetaboAnalyst (V5.0)支持原始MS光谱处理、综合数据归一化、统计分析、功能分析、荟萃分析以及与其他组学数据的综合分析。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号