NHANES数据库使用指南:从数据下载到合并处理
NHANES数据库使用指南:从数据下载到合并处理
NHANES(National Health and Nutrition Examination Survey)是美国疾病控制和预防中心(CDC)开展的一项重要健康与营养调查项目,旨在评估美国成人和儿童的健康和营养状况。该项目始于1960年代,自1999年起成为持续性研究计划,每年对约5000人的全国代表性样本进行调查。调查内容涵盖人口统计学、社会经济学、饮食和健康相关问题,以及医学、牙科和生理测量等,为营养和健康政策的制定提供了大量数据支持。
NHANES项目介绍
NHANES项目由医生、医疗技术人员及健康调查员组成的团队执行,参与者遵循自愿原则,将接受标准化的个人访谈和检查。调查内容包括:
- 人口统计学数据:包含测量设计变量(如权重、分层抽样和主要抽样单位)以及人口统计变量。
- 饮食数据:收集参与者的饮食摄入量数据,包括食物、饮料和膳食补充剂。
- 检查数据:通过体检和牙科检查收集的信息。
- 实验室数据:血液、尿液、头发、空气、肺结核皮肤试验以及家庭灰尘和水样本的分析结果。
- 问卷数据:通过家庭和流动考试中心访谈收集的数据。
研究的疾病和健康指标包括贫血、心血管疾病、糖尿病、环境暴露眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史和性行为、呼吸系统疾病(哮喘,慢性支气管炎,肺气肿)、性病、视力等。
NHANES官网介绍
NHANES官网提供了详细的数据库信息和数据下载服务。每两年为一个研究周期,数据按年份分类存储。主要数据类型包括:
- 人口数据:包含测量设计变量和人口统计变量。
- 饮食数据:记录饮食摄入量。
- 检查数据:体检和牙科检查信息。
- 实验室数据:各种生物样本的分析结果。
- 问卷数据:访谈收集的数据。
以NHANES 2017-2018人口数据为例,数据下载链接如下:
数据下载与合并
NHANES数据库的数据采用碎片化存储方式,需要按类别下载后进行整合。数据格式为XPT(SAS软件格式),可使用SAS Universal Viewer查看,或通过SUDAAN、SPSS、Stata和R软件包进行处理。以下是使用R语言进行数据下载和合并的步骤:
安装R语言:访问CRAN下载并安装。
安装R Studio:访问R Studio官网下载并安装。
导入数据:
library(foreign) demo_data <- read.xport('D:/nhanes/DEMO_J.xpt')
如果遇到
could not find function "read.xport"
错误,可以在R Studio的Package界面搜索并安装foreign
软件包。合并数据:
library(foreign) demo_data <- read.xport('D:/nhanes/DEMO_J.XPT') blood_data <- read.xport('D:/nhanes/BPX_J.XPT') merge_data <- merge(demo_data, blood_data, by.x = 'SEQN', by.y = 'SEQN', all = TRUE) write.csv(merge_data, file = "./merge_data.csv")
通过上述步骤,可以将人口学信息和疾病信息等不同数据集合并为一个CSV格式的数据集,便于进一步分析处理。