问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

生物信息学中常见的数据预处理方法

创作时间:

作者:

@小白创作中心

生物信息学中常见的数据预处理方法

引用

CSDN

1.

https://blog.csdn.net/HX096/article/details/140468186

在生物信息学领域，数据预处理是进行后续分析的基础。本文将介绍几种常见的数据预处理方法，包括Softmax标准化、Z-Score标准化、Normalize标准化、Log标准化、Scale标准化、RPKM标准化和TPM标准化。每种方法都有其特定的应用场景和优缺点。

1. Softmax标准化

Softmax是一种数学函数，通常用于将一组任意实数转换为表示概率分布的实数。其本质上是一种归一化函数，可以将一组任意的实数值转化为在[0, 1]之间的概率值，因为softmax将它们转换为0到1之间的值，所以它们可以被解释为概率。

优点：

生成概率分布：Softmax标准化将原始分数转换为概率分布，使得每个类别的输出都可以解释为该类别的预测概率。
可解释性强：由于Softmax标准化的输出是概率值，因此对于分类任务，可以清晰地解释每个类别的相对重要性。
可微分性：Softmax函数是连续可微的，这使得它可以与梯度下降等优化算法一起使用，用于训练神经网络等模型。

缺点：

Softmax标准化计算涉及指数运算，当输入数据量很大时，可能会导致数值稳定性问题，增加计算成本和时间。
类别间相关性：Softmax标准化假设各个类别之间是独立的，但实际情况下，类别之间可能存在相关性，这可能会导致Softmax标准化的输出存在一定的偏差。
容易受到异常值的影响：Softmax标准化对异常值敏感，因为它是基于输入数据的原始分数进行归一化的。如果输入数据中存在异常值，可能会影响Softmax标准化的输出结果。

2. Z-Score标准化

Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。

式中：X为原始数据；μ为均值; σ为标准差。

优点：

简单，容易计算，凭借最简单的数学公式就能够计算出Z-Score并进行比较。
消除量级给分析带来的不便。

缺点：

估算Z-Score需要总体的平均值与方差，这一值在真实的分析与挖掘中很难得到，大多数情况下是用样本的均值与标准差替代。
Z-Score标准化假设数据符合正态分布，但实际上即使数据不符合正态分布，它仍然可以起到一定的标准化效果。然而，对于高度偏斜或不对称的数据分布，Z-Score标准化可能不是最佳选择。
Z-Score消除了数据具有的实际意义，A的Z-Score与B的Z-Score与他们各自的分数不再有关系，因此Z-Score的结果只能用于比较数据间的结果，数据的真实意义还需要还原原值。
如果两组样本集的类型比例不一样，scale会带来bias。

3. Normalize标准化

每行的的总和加起来为一个确定数值，这里使用target_sum设为7.5

4. Log标准化

对数转换X = In(X + 1)

5. Scale标准化

对特征标准化，使得均值为0，方差为1。

6. RPKM标准化

RPKM（Reads Per Kilobase of transcript, per Million mapped reads）是常用的基因表达量标准化方法。

RPKM计算方法：

读取计数（Reads Count）：计算每个基因的测序读取数。
基因长度标准化：将每个基因的读取数除以该基因的长度（以kb为单位）。这一步用于校正基因长度对读取数的影响。
测序深度标准化：将步骤2的结果除以样本中总的映射读取数（以百万为单位）。这一步用于校正测序深度对读取数的影响。

7. TPM标准化

TPM（Transcripts Per Million）是常用的基因表达量标准化方法。

TPM计算方法：

读取计数标准化：首先将每个基因的读取数除以该基因的长度（以kb为单位），类似于RPKM的第一步。
计算所有基因的标准化读取数的总和。
比例标准化：将每个基因的标准化读取数除以步骤2中的总和，并乘以10^6。这样可以确保TPM的总和在每个样本中都是百万级的，便于跨样本比较。

热门推荐

人与动物沟通的界限与可能性探究

人与动物沟通的界限与可能性探究

探究“奕”字的读音及其文化含义

探究“奕”字的读音及其文化含义

西南大学王牌专业最好的专业是什么

西南大学王牌专业最好的专业是什么

治疗花生过敏或可“以毒攻毒”

治疗花生过敏或可“以毒攻毒”

我们为什么会过敏？

我们为什么会过敏？

揭开迄今为止发现的最小海马的面纱

揭开迄今为止发现的最小海马的面纱

湖北：在长江经济带高质量发展中奋勇争先

湖北：在长江经济带高质量发展中奋勇争先

分子动力学模拟从定义到场景到硬件配置详细讲解

分子动力学模拟从定义到场景到硬件配置详细讲解

深度分析不同工作环境的从业人员，都适用哪种安全鞋？欢迎对号入座

深度分析不同工作环境的从业人员，都适用哪种安全鞋？欢迎对号入座

哪些耳机线会采用单晶银材质？

哪些耳机线会采用单晶银材质？

什么是密闭炮？有啥优点和缺点？

什么是密闭炮？有啥优点和缺点？

永远不要掉进“自证陷阱”

永远不要掉进“自证陷阱”

成功人士的说话技巧与习惯风格全解析

成功人士的说话技巧与习惯风格全解析

文旅融合激发新活力！一起解锁梅州特色文旅“流量密码”

文旅融合激发新活力！一起解锁梅州特色文旅“流量密码”

废旧家具回收新趋势：可持续发展与环保理念的双重驱动

废旧家具回收新趋势：可持续发展与环保理念的双重驱动

卫生间门的六种设计做法，总有一种适合你

卫生间门的六种设计做法，总有一种适合你

准确率远超初级皮肤科医生，北大国际医院等开发深度学习算法，实现痤疮病变检测与分级

准确率远超初级皮肤科医生，北大国际医院等开发深度学习算法，实现痤疮病变检测与分级

艾宾浩斯遗忘曲线：如何通过间隔记忆法提高外语单词记忆效率

艾宾浩斯遗忘曲线：如何通过间隔记忆法提高外语单词记忆效率

西甲第29轮前瞻：赫塔费vs比利亚雷亚尔，黄潜客场能否延续连胜？

西甲第29轮前瞻：赫塔费vs比利亚雷亚尔，黄潜客场能否延续连胜？

人间中毒第几分钟：深度解析情感与欲望的交织时刻

人间中毒第几分钟：深度解析情感与欲望的交织时刻

如何提升物业绿化水平？提升过程中需要注意哪些问题？

如何提升物业绿化水平？提升过程中需要注意哪些问题？

化疗的真相：肿瘤病人最多能承受多少次化疗？

化疗的真相：肿瘤病人最多能承受多少次化疗？

宝宝还不会咿呀学语？如何提高孩子的“学说话”能力？

宝宝还不会咿呀学语？如何提高孩子的“学说话”能力？

如何配置防火墙以允许应用程序运行？

如何配置防火墙以允许应用程序运行？

日本动漫在中国的传播

日本动漫在中国的传播

狗狗生病的症状表现

狗狗生病的症状表现

舌苔厚腻，舌中有裂纹？这种舌头别健脾，它的病根并不在脾胃

舌苔厚腻，舌中有裂纹？这种舌头别健脾，它的病根并不在脾胃

爬楼梯，适合你的健身选择吗？

爬楼梯，适合你的健身选择吗？

爬楼梯减肥：一种简单有效的健身方式

爬楼梯减肥：一种简单有效的健身方式

泡茶不仅解渴，还能净化水质？最新研究揭示茶叶的惊人功效

泡茶不仅解渴，还能净化水质？最新研究揭示茶叶的惊人功效

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号