复旦大学杨翠微教授团队提出基于心电表型的房颤风险评估新方案
复旦大学杨翠微教授团队提出基于心电表型的房颤风险评估新方案
近日,《表型组学(英文)》(Phenomics)在线发表了由复旦大学信息科学与工程学院杨翠微教授团队完成的操作手册,题为"Risk Analysis of Atrial Fibrillation Based on ECG Phenotypes: The RAF-ECP Study Protocol"。该方案提出了一种系统性方法,通过分析心电图表型特征来评估房颤风险,为房颤的早期预测和预防提供新思路。
研究背景
心房颤动(简称房颤)是临床最常见的心律失常,不仅严重影响患者生活质量,而且致残致死率高。
研究表明,房颤可使卒中风险增加5倍、心力衰竭风险增加3倍、痴呆和死亡风险增加2倍,其所导致的住院率和病死率正在逐步上升,造成了巨大的社会医疗资源投入,已对我国和其他国家造成了严重的经济负担。
降低房颤带来的疾病风险,早发现、早诊断、早治疗是关键。因此,对高危人群进行早期筛查和预防具有重要意义。
研究方法
1.数据采集
计划收集10,000例病例数据,包含房颤事件组和无房颤事件组,每例包括基线信息和10秒钟的心电图记录(I、II导联)。
2. ECG表型特征提取:
心率变异性(HRV)分析:
时域特征:
包括AVNN(HRV 的平均值)、SDNN(HRV 的标准差)、SDSD(连续HRV差值标准差)、NN50(连续HRV相差超过50毫秒的次数)、NN20(连续HRV相差超过20毫秒的次数)、pNN50(NN50 值的比率)、pNN20(NN20 值的比率)、 RMSSD(连续 HRV 的均方根)、MEDNN(HRV 的中位数)、RGNN(最大和最小的HRV 之差)、CVSD(RMSSD 除以 AVNN 的比率)、HRmax(最大心率)和HRmin(最小心率)等,共14个指标。
庞加莱图(Poincaré图)特征:
SD1(短期RR间期变异性的标准差)、SD2(长期RR间期变异性的标准差)、SDratio(SD1和SD2的比值)、CSI(心脏交感指数)、CVI(心脏迷走神经指数),共5个指标。
庞加莱图用以对时间序列中相邻点之间的关联进行可视化。其在健康个体中通常呈现“彗星”形状,或沿主对角线大致呈线性模式(如下图a/b)。相比之下,下图c和d中的庞加莱图散点分布紊乱,没有明确的轨迹。
差分庞加莱图是对庞加莱图的改进,如果认为庞加莱图捕获了RR间期的速度,则差分图代表的是速度变化,即加速度。
下面两幅图是基于单变量和双变量核密度估计,对两类人群的差分庞加莱图特征进行了可视化,可以看到面积和能量(或体积)特征存在显著性差异。
递归量化分析:包括RR(递归频率)、DET(确定性)、L(平均长度)等8个指标
样本熵:评估时间序列的复杂度
P波特征分析:
时域特征:包括P波持续时间、P波离散度、PR间期等12个指标
P波峰序列特征:包括平均值、标准差、中位数等8个指标
P波变异特征:包括欧氏距离、角度余弦等特征
P波形态特征:使用高斯函数建模P波形态
3. 收集临床基线信息:
4. 构建房颤风险评估模型:
统计检验:用于识别潜在房颤风险指标。对数值变量,进行学生t检验(遵循正态分布的变量)或曼惠特尼秩和检验(不遵循正态分布的变量);对分类变量,使用卡方检验。此外,Cox多元回归模型将用于计算风险比值、置信区间和p值。
机器学习分类器:采用随机森林、逻辑回归和支持向量机进行风险预测。对于随机森林分类器,决策树将采用Gini不纯度作为选择标准。对于支持向量机分类器,将使用径向基函数作为核函数。逻辑回归为线性模型分配估计系数以最小化残差平方和。进行参数优化和十次交叉验证,并计算出平均评估指标值,包括准确性、敏感性和特异性。
预期结果
统计分析结果:获得ECG表型特征集和基线信息集的风险比值(HR值),置信区间(CI),p值,数值变量以均值±标准差或中位数(25%-75%四分位数范围)呈现。这些分析将识别出能有效区分无房颤人群和高风险人群的风险因素。
机器学习模型结果:评估随机森林分类器对ECG表型特征集和基线信息集的分类效果,获得模型的准确性、敏感性和特异性指标。该模型可用于评估入组患者的房颤风险通过持续输入数据可以不断优化模型架构。
比较分析结果:比较ECG表型特征集和基线信息集之间的差异,包括两组间显著性差异变量的概率分布差异,以及经机器学习模型处理后的变量特征差异。
研究结论
本研究首次系统评估了I、II导联心电图表型在房颤风险评估和预测中的价值,通过标准化表型特征的定义和计算过程,为改进房颤风险评估和管理策略提供了新的思路。
本研究将通过多中心合作获取多样化和具有代表性的数据集,这对于捕捉患者特征、临床实践和地理因素的变异至关重要,从而增强研究结果的外部效度。
总之,本研究不仅标准化了ECG表型的定义和计算,还通过整合统计分析和机器学习技术提高预测能力,这对于确保不同研究和医疗机构间的一致性和可比性具有重要意义。
Abstract
Atrial fibrillation (AF) is the most common supraventricular arrhythmia in clinical practice, and many patients exhibit silent AF. Variables based on Electrocardiogram (ECG) have shown promise in assessing AF risk in the previous study. This study protocol proposes a systematic approach, named RAF-ECP, to evaluate the role of ECG phenotypes in assessing the risk of AF. The protocol aims to standardize the definition and calculation of ECG phenotypes, ensuring consistency and comparability across different research studies and healthcare settings. Data will be collected from multiple clinical laboratories, with an anticipated sample size of 10,000 cases (lead I and II, 10 s) evenly distributed between subjects with and without AF events in one-year time frame. By analyzing ECG data and baseline information, statistical tests and machine learning classifiers will be employed to identify significant risk factors and develop a comprehensive risk assessment model for AF. The anticipated outcomes include hazard ratio values, confidence intervals, p values, as well as accuracy, sensitivity, and specificity measures. The study also discusses the clinical relevance and potential benefits of standardizing ECG phenotypes, emphasizing the need for collaboration between multiple centers to obtain diverse and representative datasets. The proposed RAF-ECP study protocol offers a novel and significant approach to understanding the impact of ECG phenotypes on AF risk assessment. Its integration of statistical analysis and machine learning techniques has the potential to advance AF research and contribute to the development of improved risk prediction models and clinical decision support tools.