临床基因组测序解读与报告专家共识
创作时间:
作者:
@小白创作中心
临床基因组测序解读与报告专家共识
引用
1
来源
1.
http://www.chinagene.cn/CN/10.16288/j.yczz.24-296
基因组测序是一种全面且系统地检测个体核基因组和线粒体基因组DNA序列的技术,旨在识别遗传变异并研究这些变异在人类健康和疾病发生发展中的作用。作为一种应用越来越广泛的检测技术,GS凭借高通量、高准确性和全面性的优势,为临床诊断提供了重要支持。然而,其复杂的数据分析与解读对专业知识和经验提出了较高要求,也带来了诸多挑战。运用GS技术进行遗传病分子诊断会涉及临床应用的伦理与技术问题,包括知情同意、诊断性数据解读、报告范围和内容等。本专家共识总结了临床基因组测序(clinical GS,cGS)的核心流程,明确了检测范围与技术局限性,提供了数据质控、分析、注释及变异解读的关键步骤,并对报告内容和知情同意的争议性问题展开讨论。本共识旨在帮助相关从业人员正确理解和规范使用临床基因组测序技术,提升遗传病诊断的准确性,优化技术的临床效用,推动医学科学研究的进步。
临床基因组测序的核心流程
临床基因组测序(cGS)的简要流程如图1所示。主要包括样本采集、测序、数据质控、变异检测、变异注释、变异解读和报告撰写等环节。
数据质控指标及阈值
表1列出了GS数据推荐的质控指标及阈值。这些指标涵盖了从原始数据量到测序深度等多个方面,确保数据的准确性和可靠性。
质控大类 | 质控指标 | 描述 | 阈值/单位 |
---|---|---|---|
溯源质控 | 样本溯源 | 使用分子标签技术,家系亲缘分析等保障样本溯源的准确性 | 通过/失败注1 |
性别溯源 | 使用性染色体覆盖度或SRY基因计算并推测测序样本性别 | 通过/失败注2 | |
数据污染溯源 | 通过杂合度比例的偏移值评估个体间的污染风险 | 通过/失败注3(≤2%) | |
数据质控 | 原始数据量(Gb) | 测序下机原始数据量 | ≥100 Gb |
数据质量值Q30(%) | 测序下机原始数据中测序质量评分大于30的百分比 | ≥85% | |
N碱基比例(%) | 测序序列中无法准确比对及分析的百分比 | ≤5% | |
接头序列比例(%) | 测序序列两端接头二聚体比例 | ≤1% | |
GC分布(%) | 碱基GC偏好性 | 39%~44% | |
插入片段长度中位数(bp) | DNA插入片段大小的中位数 | ≥300 bp | |
比对率(%) | 用于提示可能存在的非人源污染,需结合样本溯源综合评估 | ≥99% | |
重复比例(%) | 测序数据中重复序列的占比 | ≤10% | |
平均测序深度(×) | 有效数据回贴后全基因组的平均覆盖深度 | ≥30× | |
全基因组20×以上覆盖区域(%) | 全基因组范围内20×深度以上的区域占比 | ≥90% | |
转换颠换率Ti/Tv | 根据物种及测序覆盖区域,转换颠换率具有很强的保守性,可评估数据稳定性 | ≥2 |
数据注释内容及注意事项
表2详细列出了GS的数据注释内容及注意事项。这些注释内容包括变异的检测结果、变异的生物学影响、变异与临床症状或疾病的关联等。
注释大类 | 数据注释 | 注释内容与注意事项说明 |
---|---|---|
基于变异检测的推断 | 变异的检测结果 | 根据变异检测推断合子类型(杂合变异、纯合变异、半合变异或嵌合变异等)、标注变异的类型(参见表3)和标注变异的检测质量 |
基于位点的致病性分析注释,参考美国医学遗传学与基因组学学会(The American college of medical genetics and genomics, ACMG)指南等变异致病性评级规则,为致病性评级提供所需的注释内容 | 变异的人群频率 | 包括变异在不同数据集中的人群频率,建议细化为等位基因频率及各合子类型个体数量,区分不同族群来源及表型标签(患病或正常)。在评估来自不同测序方案的数据集时(例如来自外显子捕获测序或GS),应灵活计算合理的等位基因总数 |
变异的生物学影响 | 包括变异对转录本中碱基的改变或对氨基酸的改变、对蛋白质的影响、对转录本剪接的影响、对基因调控的影响等。应注意转录本的选择(推荐采用MANE Select,MANE Plus Clinical或在疾病相关组织表达量较高的转录本)、变异描述符合人类基因组变异协会(Human Genome Variation Society, HGVS)规则、使用合适的变异危害预测评分或分级等 | |
变异与临床症状或疾病的关联 | 包括同一变异或相关变异(包括发生在同一染色体坐标的不同变异,或是造成了同样氨基酸变化的不同变异)在既往研究中的病例报道、既往的致病性评级结论及证据。此部分应额外关注信息更新,尤其是在现有的致病性结论相互冲突时 | |
其他自定义注释 | 包括标记出自行整理和维护的需要特殊关注的位点黑/白名单注等额外参考信息 | |
基于基因功能与关联疾病的注释 | 基因与疾病的关联 | 包括既往研究中对于基因与疾病关联的报道、结论和相关的衍生概念,例如由于基因异常而导致的不同临床表型及对应的遗传模式、发病年龄、外显率等 |
基因的生物学功能 | 包括野生型基因在功能学实验中展示的生物学功能,例如结构性蛋白的定位、调控因子的通路或表达谱特征、酶蛋白的具体功能和代谢通路等 | |
其他自定义注释 | 包括需要特殊关注的基因黑/白名单、基因组学分析中基因对功能失活变异的耐受度(如预测的功能丧失(Predictive loss of function, pLOF)值)、标记存在假基因、同源序列或串联重复序列的特殊基因(如CYP21A2、SMN1、PHOX2B)等 | |
变异注释过程中的注意事项 | 参考基因组版本 | 变异位点的注释高度依赖变异的染色体定位,因此需重点关注各注释数据库所依托的参考基因组版本,尤其是线粒体基因组的具体版本。目前常用的人类基因组参考序列有hg19, hg38, hs37d5等 |
文件的标准格式 | 在进行数据注释时,往往会用到现成的工具软件,应注意变异记录文件在不同格式间的转化问题,包括VCF、BED及部分软件自定义的数据格式等 | |
变异坐标或区段描述 | 描述变异坐标或区段时,应明确所使用0-base/1-base的开闭区间定位方式。在每一步调用知识库进行信息注释或是使用工具软件时,应确认所用的定位方式和知识库/工具软件默认的输入格式是否一致 | |
CNV/SV变异注释 | 在对CNV或SV等区段型变异进行注释时,应注意覆盖比例的阈值,避免将仅局部相关或是长度差异过大的两个变异相互关联 | |
Indel变异注释 | 注释Indel变异时应考虑不同对齐方式导致的变异错配问题,尤其是在变异附近带有顺式单核苷酸变异时 | |
其他影响 | 对于GS数据,尤其应关注变异(尤其是结构变异)对基因调控可能产生的影响,建议注释已知调控元件、染色质结构信息(如Hi-C)、组蛋白修饰标记区等 |
相关变异类型的解释和报告考虑因素
表3列出了cGS检测到的相关变异类型的解释和报告考虑因素。这些变异类型包括单核苷酸变异(SNV)、小插入/缺失(Indel)、拷贝数变异(CNV)、结构变异(SV)等。
变异类型 | 主要解释 | 特殊变异解读注意事项 |
---|---|---|
单核苷酸变异(single nucleotide variation, SNV) | •数量最多的待核查变异,尤其需要综合使用表型驱动和基因型驱动的过滤策略•应考虑变异可能导致的所有可能后果(例如核查剪接注释、转录特异性影响等) | 一些位点可能有多个等位基因(多等位基因变异) |
小插入/缺失(insertion and deletion, Indel) | •按照与SNV相同的过滤和分类步骤进行评估•实验室通常会指定需要验证的插入/缺失变异大小范围,以供评估和报告 | 部分Indel可能由于长度、序列特征因素或变异检测算法偏好导致结果不准确,需要人工核查BAM文件,并通过一代测序进行确认 |
拷贝数变异(copy number variation, CNV) | • PCR-free测序使得GS数据在编码和非编码区域覆盖均匀,可更敏感地检测大片段CNV,且对断点的检测较ES准确•一般基于测序质量、参考人群频率以及所覆盖的外显子区域进行过滤分析。在解读过程中要核查遗传模式和拷贝数•应用过滤策略筛选或与变异数据库中的既往变异比较时,应考虑CNV片段大小的多样性和所得断点精确性的问题 | 除与疾病相关的CNV外,涉及大片段、包含基因数量足够多的CNV也应纳入分析。在分析CNV时还应考虑由于片段大小和断点识别而导致的异质性问题 |
结构变异(structure variation, SV) | GS可识别断点序列从而检测平衡易位和更复杂的结构变异。由于对正常人群中变异的认识不够充分,目前SV检测主要用于:•检测反复出现的致病性平衡SVs注•对通过序列覆盖深度检测到的CNVs进行重新筛选/表征•针对已知区域或感兴趣基因的SV(例如平衡重排)进行定向搜索 | 目前的SV检测仍主要用于辅助CNV检测。实验室应明确SV的分析范围和敏感性的局限。当难以判读cGS检出的SV结果时,可考虑采用其他方法进行验证。常规验证方法为(1)对于核型分析可能看得到的分辨率,检查核型分析;(2)易位或异常染色体结构,考虑FISH;(3)针对断裂点设计特异性PCR+Sanger测序;(4)其他基因组学方式,如长片段测序 |
纯合区域(regions of homozygosity, ROH) | •单个染色体上广泛的同源单体型区(ROH)可能表明存在单亲二体性 (UPD),应重点关注位于6、7、11、14、15、20号染色体上与UPD遗传病相关的ROH区域 | 跨越多个染色体的ROH可能是由近亲关系引起的。当检测到已知的父源或母源印迹异常导致疾病的ROH或UPD时,推荐通过甲基化检测或家系单倍型分型分析进一步明确 |
高同源性区域的变异 | •特制算法可用于高同源性或具有已知假基因的区域中筛选变异 | 应在临床报告中描述局限性 |
短串联重复序列(short tandem repeats, STR) | •相对于ES,GS可更好无偏移地检测STR•若检测结果中提及STR及重复度,在进一步遗传咨询或临床报告前需要用其他方法验证•人工核查STR位点的原始数据是重要的QC步骤 | 当前GS检测STR的算法在灵敏度和特异性方面仍存在局限性。实验室应提供适合分析STR的基因列表与重复度范围的信息 |
线粒体变异(mitochondrial DNA variation, mtDNA) | •GS可检测线粒体变异,但需要考虑不同样本类型(如血液、肌肉组织、皮肤组织等)的差异和局限性•目前指南对评估线粒体新发变异的指导不足,通常仅报告已知致病性变异 | 在解读线粒体变异时应考虑检材选择而导致的检测局限性,以及组织特异性表现。分析线粒体变异结果时应考虑线粒体单倍群问题。此外,对于GS分析,线粒体来源的核序列(nuclear-mitochondrial segments, NUMT)可能会影响变异检测的敏感度 |
体细胞嵌合变异 | •检出疑似体细胞嵌合变异时,需要其他方法验证•GS在检测嵌合型CNV时,敏感性可能会比嵌合型SNV高 | 由于覆盖深度较低,GS检测体细胞嵌合变异的能力低于ES或靶向测序(target panel) |
基因型驱动分析与表型驱动分析
图2展示了“基因型驱动分析”与“表型驱动分析”的对比。基因型驱动分析主要关注基因变异本身,而表型驱动分析则更侧重于患者的临床表现。
热门推荐
新年汉服穿搭指南:古典之美与现代风尚的完美融合
地质年代知多少|中生代的终结—白垩纪
地质年代知多少|中生代的终结—白垩纪
日本是如何走向今天的?几个真相颠覆你常识
保温层一般用什么材料,保温层材料的特点有哪些
如何轻松开启安卓手机开发者选项并优化使用体验
洞察2024:中国第三代半导体材料行业竞争格局及市场份额
深圳植发医保政策:植发费用大多不能报销
最低100来万、最贵3000多万!南京14家以旧换新楼盘,怎么选?
痰湿体质下身体会有哪些表现?
Switch能用Xbox手柄吗?全面解答!
种植生姜的最佳时间(生姜栽种季节、环境要求、栽培方法详解)
直拍横拍大PK:乒乓球拍握法深度解析
“街头错别字”的调查报告
研学旅游提质量 人才培养需跟上
心电图(ECG或EKG)检查详解:原理、目的、过程及结果解读
2025年九部风格迥异的漫威新作,任你挑选!
铂电阻测温仪的原理和探头封装种类
科学辟谣 | 葡萄酒中的二氧化硫:作用、含量与安全性全解析
教导儿童如何照顾猫咪
精卫填海比喻了什么?精卫填海:永不放弃的执着与伟大梦想的象征!
车规级存储芯片的AEC-Q100认证标准与选购指南
英超曼城VS埃弗顿赛后分析:三中卫的战术博弈
10W预算搭建深度学习服务器,看这一篇就够了!
《真三国无双起源》游戏卡顿怎么办?五招帮你轻松应对
探访重庆彩色寿衣店:来的多是老太太,红色最好卖
湿疹常见的八大过敏原有哪些?
湿疹患者应该注意什么
薛宝钗人物分析
薛宝钗的性格特征