微信Charleszhanggo
自1999年起,NHANES的數(shù)據(jù)每2年發(fā)布1次,并持續(xù)更新。NHANES數(shù)據(jù)主要由以下4個(gè)部分組成:
按照時(shí)間:年周期(Years Cycle)
按照收集方法:5大項(xiàng)目(Items)
按照數(shù)據(jù)類型:數(shù)據(jù)文件(Data Files)
每次數(shù)據(jù)文件都有多個(gè)字段(Variable)
下面來(lái)詳細(xì)介紹一下各自的特點(diǎn)。
1、年周期(Year Cycle)
當(dāng)前的 NHANES,也稱為連續(xù)性 NHANES(Continuous NHANES),是指自 1999 年以來(lái)產(chǎn)生的數(shù)據(jù)的兩年周期,目前已有11個(gè)年周期。
圖片
2、5大項(xiàng)目(Items)
每個(gè)周期按收集方法分為五個(gè)部分:
人口統(tǒng)計(jì)(Demographics)
飲食(Dietary)
檢查(Examination)
實(shí)驗(yàn)室(Laboratory)
問(wèn)卷(Questionnaire)
人口統(tǒng)計(jì)文件:包含調(diào)查設(shè)計(jì)變量,例如權(quán)重、分層和初級(jí)抽樣單位,以及人口統(tǒng)計(jì)變量。
飲食文件:包含從參與者那里收集的有關(guān)其飲食攝入量的數(shù)據(jù),其中包括食物、飲料和膳食補(bǔ)充劑。
檢查文件:包含通過(guò)體檢和牙科檢查收集的信息。
實(shí)驗(yàn)室文件:包含對(duì)血液、尿液、頭發(fā)、空氣、結(jié)核病皮膚測(cè)試以及家庭灰塵和水樣本的分析結(jié)果。
問(wèn)卷文件:包含通過(guò)家庭和移動(dòng)考試中心訪談收集的數(shù)據(jù)。
3、數(shù)據(jù)文件
每個(gè)項(xiàng)目中都有許多單獨(dú)的數(shù)據(jù)文件。要查找文件想要的文件,調(diào)查內(nèi)容手冊(cè)可以幫助你,并且會(huì)告訴你某些文件是否隨著時(shí)間發(fā)生了改變。
https://wwwn.cdc.gov/nchs/data/nhanes/survey-contents-508.pdf
圖片
圖片
下面列出了這些數(shù)據(jù)文件的示例。
人口數(shù)據(jù):包含人口統(tǒng)計(jì)變量以及調(diào)查權(quán)重和其他調(diào)查設(shè)計(jì)變量
飲食數(shù)據(jù):用于飲食訪談、補(bǔ)充劑使用等的個(gè)人文件。
檢查數(shù)據(jù):關(guān)于聽(tīng)力、血壓、身體測(cè)量、肌肉力量、口腔健康、視力檢查等的個(gè)人文件。
實(shí)驗(yàn)室數(shù)據(jù):關(guān)于尿液收集、甲型肝炎病毒、HIV、重金屬、血漿葡萄糖、總膽固醇、甘油三酯等的個(gè)人文件。
問(wèn)卷調(diào)查數(shù)據(jù):關(guān)于酒精使用、平衡、血壓、糖尿病、藥物使用、社會(huì)支持、視力、體重史等的個(gè)人文件。
圖片
通常,分析需要來(lái)自多個(gè)數(shù)據(jù)文件。例如,年齡和性別在人口統(tǒng)計(jì)項(xiàng)目中,而血壓測(cè)量在檢查項(xiàng)目中,膽固醇變量在實(shí)驗(yàn)室項(xiàng)目中,關(guān)于先前診斷或服用高血壓藥物的問(wèn)題在問(wèn)卷組件中。在對(duì)心血管疾病的完整分析中可能需要所有這些變量。
需要注意:NHANES在不斷地更新數(shù)據(jù),也在不斷地撤回?cái)?shù)據(jù)。
同一文件在不同年份的名稱也有差別,例如入口學(xué)數(shù)據(jù)在1999年為demo.xpt,而在2001年則為demo_a.xpt,而當(dāng)你以為以后都是demo_字母.xpt這樣排序時(shí),到了2019年又變成了p_demo.xpt。所以千萬(wàn)注意文件名,以保證你下載或讀取的數(shù)據(jù)是正確的。
圖片
4、變量
一個(gè)分析過(guò)程往往需要來(lái)自一個(gè)或多個(gè)調(diào)查周期的數(shù)據(jù)。要確定分析中需要哪些變量,需要確定潛在的分析變量并查看調(diào)查文檔。有多種方法可以識(shí)別潛在變量。
要查找特定變量:可以通過(guò)訪問(wèn)問(wèn)卷、數(shù)據(jù)集和相關(guān)文檔頁(yè)面中的搜索變量鏈接來(lái)執(zhí)行關(guān)鍵字搜索??梢运阉魉姓{(diào)查周期或?qū)⑺阉飨拗茷閱蝹€(gè)數(shù)據(jù)發(fā)布周期。仔細(xì)閱讀搜索結(jié)果中每個(gè)“命中”的文檔,因?yàn)椴⒎敲總€(gè)返回的結(jié)果都與您的分析相關(guān)。
圖片
切記切記:在選取變量之前,一定要仔細(xì)閱讀每個(gè)變量的文檔,因?yàn)椴⒎敲總€(gè)返回的結(jié)果都與你的分析相關(guān)。例如,假設(shè)你準(zhǔn)備使用膽固醇變量(cholesterol)進(jìn)行分析,并按關(guān)鍵字“甘油三酯”(triglycerides)進(jìn)行搜索。標(biāo)準(zhǔn)生物化學(xué)配置文件 (BIOPRO) 包含甘油三酯(Triglycerides)的變量(變量LBXTR)。但是,使用參考分析方法(變量LBXTR)的甘油三酯實(shí)驗(yàn)室測(cè)試結(jié)果包含在膽固醇 - 低密度脂蛋白和甘油三酯文件 (Cholesterol - LDL & Triglycerides file (TRIGLY)) 中。這是用于最準(zhǔn)確數(shù)據(jù)分析的適當(dāng)變量。所以:一定要仔細(xì)閱讀變量描述。
另外:變量名稱可能會(huì)發(fā)生變化,并且可能會(huì)在不同的年份中添加重新編碼、標(biāo)簽發(fā)生變化或派生的變量。如果感興趣的變量的名稱或標(biāo)簽已更改,則必須查明措辭、定義和/或響應(yīng)類別是否已修改,然后重新編碼變量以使其名稱和響應(yīng)類別在追加之前保持一致。
例如參軍狀態(tài)變量:在2010年之前是dmqmilit,但是2011年之后改叫dmqmiliz。
圖片
并且前后的編碼也稍有差別,雖然都是1表示Yes,2表示No,7表示Refused,9表示Don't know。但是2010年之前的know中k為小寫,而之后的k為大寫的K。
圖片
小結(jié)
NHANES數(shù)據(jù)由Years、Items、files、variable這4個(gè)部分組成
Years的格式固定,為2年周期
Items根據(jù)數(shù)據(jù)采集方式分為5種類型
files根據(jù)數(shù)據(jù)類型分為多種文件,即使同一文件在不同年份的名稱也會(huì)有差別
variable為變量名稱
變量是不斷變化
變量編碼也可能不斷變化
還會(huì)不斷增加新的編碼
在數(shù)據(jù)分析之前,一定要詳細(xì)了解你要采集的數(shù)據(jù),詳細(xì)解讀數(shù)據(jù)的介紹、字段的介紹,確保你選擇的數(shù)據(jù)是正確的