问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

GATK Mutect2新版发布:过滤策略与模型重大更新

创作时间:
作者:
@小白创作中心

GATK Mutect2新版发布:过滤策略与模型重大更新

引用
CSDN
7
来源
1.
https://m.blog.csdn.net/qazplm12_3/article/details/125454510
2.
https://m.blog.csdn.net/qq_27390023/article/details/141416584
3.
https://www.jianshu.com/p/bbce4ae48ae9
4.
https://docs.gdc.cancer.gov/Encyclopedia/pages/MuTect2/
5.
https://bmap.sjtu.edu.cn/platform/details/88
6.
http://www.bio-info-trainee.com/7700.html
7.
https://evvail.com/2020/12/13/2042.html

GATK(Genome Analysis Toolkit)近期发布了Mutect2的新版本4.1.1.0,这一更新带来了多项重要改进,特别是在错误修复、过滤策略和新模型方面。这些更新不仅优化了工具的性能,还提高了体细胞突变检测的准确性和效率。

错误修复与性能提升

新版本修复了多个关键bug,包括无效的对数概率、无穷大值和NA值等问题,这些错误通常由有限精度计算引起。特别值得一提的是,新版解决了CalculateContamination在非常小的基因面板上表现不佳的问题,这使得Mutect2在处理小型基因组数据时更加可靠。

过滤策略的重大更新

FilterMutectCalls是Mutect2中的重要组件,用于过滤潜在的假阳性结果。在新版中,这个模块发生了重大变化:

  1. 新增必需输入:现在需要提供参考基因组(fasta文件)和Mutect2生成的stats文件作为输入。例如,当运行Mutect2时输出-O unfiltered.vcf,会自动生成unfiltered.vcf.stats文件。

  2. 统一的过滤阈值:以前的版本中,每个过滤原因都有独立的阈值参数(如-normal-artifact-lod、-max-germline-posterior等)。新版中,这些参数已被移除,取而代之的是基于单个数值的过滤策略——即变异是体细胞突变的概率。

  3. F分数优化:用户可以通过调整-f-score-beta参数来平衡灵敏度和精度。默认值为1,增加该值可以提高灵敏度,降低则偏向更高的精度。

新的体细胞聚类模型

新版Mutect2引入了基于狄利克雷过程二项混合模型的体细胞聚类模型。这个模型通过分析亚克隆等位基因分数的频谱,能够更准确地区分真实突变和背景噪声。具体来说,模型使用二项式分布来描述体细胞变异的可能性,并通过β二项式来解释等位基因分数的背景扩散,从而在保持聚类优势的同时,更好地处理CNVs、小亚克隆和遗传漂变等因素。

实际应用价值

这些更新在实际应用中带来了显著的改进。例如,上海交通大学的BMAP团队基于Mutect2开发了癌症基因组数据分析平台,该平台成功检测了标准样本GW-OYC001中的所有21个突变,涉及19个靶向药物相关基因。此外,平台还集成了临床知识图谱iCMDB,能够提供治疗建议和临床试验信息,进一步提升了Mutect2在临床实践中的价值。

总结

新版Mutect2通过错误修复、过滤策略优化和新模型的引入,显著提升了体细胞突变检测的准确性和效率。这些改进不仅优化了工具的性能,还增强了其在癌症基因组学研究和临床实践中的应用价值。对于从事相关领域的研究人员来说,及时了解和应用这些更新将有助于提高研究效率和准确性。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号