NHANES数据库介绍及数据提取指南
NHANES数据库介绍及数据提取指南
NHANES(National Health and Nutrition Examination Survey)是美国疾病控制和预防中心(CDC)开展的一项重要健康与营养调查项目,旨在评估美国成人和儿童的健康与营养状况。该项目始于1960年代,自1999年起成为持续性计划,每年对约5000人的全国代表性样本进行调查。调查内容涵盖人口统计学、社会经济学、饮食和健康相关问题,以及医学、牙科和生理测量等,为营养和健康政策的制定提供了大量数据支持。
NHANES项目介绍
NHANES项目由CDC执行,是一个基于人群的横断面调查研究计划,主要评估美国成人和儿童的健康与营养状况。该项目始于1960年代,自1999年起成为持续性计划,重点关注与健康和营养有关的一系列问题。每年调查约5000人的全国代表性样本,研究小组由医生、医疗技术人员及健康调查员组成。参与调查遵循自愿原则,参与者将接受标准化的个人访谈和检查。
NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题,检查部分包括医学、牙科和生理测量,以及由训练有素的医务人员进行的实验室检验。调查结果用于确定主要疾病的患病率和疾病的风险因素,也是衡量身高、体重和血压等国家标准的基础,为营养和健康政策的制定提供了大量数据支持。
NHANES作为CDC连续开展的横断面研究,收集了人群中慢性病患病率的数据,通过调查,可估算出以前未确诊的情况、已知和报告的情况。同时调查风险因素,即一个人的生活方式、体质、遗传、环境中可能增加患病机会的因素,其中包括吸烟、饮酒、性行为、吸毒、身体健康状况和运动、体重、饮食摄入,还收集了关于生殖健康方面的数据,如使用口服避孕药和母乳喂养做法。研究的疾病和健康指标包括:贫血、心血管疾病、糖尿病、环境暴露眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史和性行为、呼吸系统疾病(哮喘,慢性支气管炎,肺气肿)、性病、视力等,研究结果可用于确定慢性疾病的患病率和危险因素,便于研究者开展流行病学研究,并为政府公共卫生政策和卫生服务计划的制定提供依据。
NHANES官网介绍
NHANES官网提供了详细的数据库信息和数据下载服务。每两年为一个调查周期,数据按年份分类存储。主要数据类型包括:
- 人口数据:包含测量设计变量(如权重、分层抽样和主要抽样单位)以及人口统计变量。
- 饮食数据:包含参与者饮食摄入量的数据,包括食物、饮料和膳食补充剂。
- 检查数据:包含通过体检和牙科检查收集的信息。
- 化验数据:包含血液、尿液、头发、空气、肺结核皮肤试验以及家庭灰尘和水样本的分析结果。
- 问卷数据:包含通过家庭和流动考试中心访谈收集的数据。
- 限制访问数据:部分敏感数据需要申请才能访问。
以NHANES 2017-2018人口数据为例,数据下载链接如下:
数据下载与合并
NHANES数据库的数据是碎片化存储的,因此在进行大数据分析时,需要分门别类地下载数据,然后将下载的数据进行拼接整合。
NHANES数据采用XPT格式,这是SAS软件的格式,可以使用SAS Universal Viewer查看,也可以使用SUDAAN、SPSS、Stata和R软件包传输文件。本文将介绍如何使用R语言进行数据下载和合并。
安装R语言及R Studio
- 安装R语言:访问CRAN官网进行下载安装。
- 安装R Studio:访问R Studio官网进行下载安装。
导入数据
启动R Studio,创建新的R脚本并输入以下代码:
library(foreign)
demo_data <- read.xport('D:/nhanes/DEMO_J.xpt')
这将导入人口数据,该数据集包含9254个样本和46个变量。变量如SEQN(样本编号)、SDDSRVTR(数据发布周期)、RIDSTATR(面试和检查状态)、RIAGENDR(性别)、RIDAGEYR(年龄)等。
合并数据
接下来,下载并导入感兴趣的其他数据,例如血压数据:
blood_data <- read.xport('D:/nhanes/BPX_J.XPT')
血压数据包含8704个样本和21个变量。将两个数据集合并为一个,命名为merge_data
:
merge_data <- merge(demo_data, blood_data, by.x = 'SEQN', by.y = 'SEQN', all = TRUE)
最后,将合并后的数据保存为CSV格式:
write.csv(merge_data, file = "./merge_data.csv")
这样就得到了一个CSV格式的数据集,可以直接用Excel进一步编辑处理。
总结
NHANES数据库是一个重要的公共卫生数据资源,包含了丰富的健康和营养数据。通过本文介绍的方法,读者可以轻松地使用R语言下载和合并NHANES数据,为公共卫生研究和数据分析提供有力支持。