NHANES數(shù)據(jù)結(jié)構(gòu)

微信Charleszhanggo


自1999年起,NHANES的數(shù)據(jù)每2年發(fā)布1次,并持續(xù)更新。NHANES數(shù)據(jù)主要由以下4個(gè)部分組成:


按照時(shí)間:年周期(Years Cycle)


按照收集方法:5大項(xiàng)目(Items)


按照數(shù)據(jù)類型:數(shù)據(jù)文件(Data Files)


每次數(shù)據(jù)文件都有多個(gè)字段(Variable)


下面來(lái)詳細(xì)介紹一下各自的特點(diǎn)。


1、年周期(Year Cycle)


當(dāng)前的 NHANES,也稱為連續(xù)性 NHANES(Continuous NHANES),是指自 1999 年以來(lái)產(chǎn)生的數(shù)據(jù)的兩年周期,目前已有11個(gè)年周期。


圖片


2、5大項(xiàng)目(Items)


每個(gè)周期按收集方法分為五個(gè)部分:


人口統(tǒng)計(jì)(Demographics)


飲食(Dietary)


檢查(Examination)


實(shí)驗(yàn)室(Laboratory)


問(wèn)卷(Questionnaire)


人口統(tǒng)計(jì)文件:包含調(diào)查設(shè)計(jì)變量,例如權(quán)重、分層和初級(jí)抽樣單位,以及人口統(tǒng)計(jì)變量。


飲食文件:包含從參與者那里收集的有關(guān)其飲食攝入量的數(shù)據(jù),其中包括食物、飲料和膳食補(bǔ)充劑。


檢查文件:包含通過(guò)體檢和牙科檢查收集的信息。


實(shí)驗(yàn)室文件:包含對(duì)血液、尿液、頭發(fā)、空氣、結(jié)核病皮膚測(cè)試以及家庭灰塵和水樣本的分析結(jié)果。


問(wèn)卷文件:包含通過(guò)家庭和移動(dòng)考試中心訪談收集的數(shù)據(jù)。


3、數(shù)據(jù)文件


每個(gè)項(xiàng)目中都有許多單獨(dú)的數(shù)據(jù)文件。要查找文件想要的文件,調(diào)查內(nèi)容手冊(cè)可以幫助你,并且會(huì)告訴你某些文件是否隨著時(shí)間發(fā)生了改變。


https://wwwn.cdc.gov/nchs/data/nhanes/survey-contents-508.pdf

圖片






圖片


下面列出了這些數(shù)據(jù)文件的示例。


人口數(shù)據(jù):包含人口統(tǒng)計(jì)變量以及調(diào)查權(quán)重和其他調(diào)查設(shè)計(jì)變量


飲食數(shù)據(jù):用于飲食訪談、補(bǔ)充劑使用等的個(gè)人文件。


檢查數(shù)據(jù):關(guān)于聽(tīng)力、血壓、身體測(cè)量、肌肉力量、口腔健康、視力檢查等的個(gè)人文件。


實(shí)驗(yàn)室數(shù)據(jù):關(guān)于尿液收集、甲型肝炎病毒、HIV、重金屬、血漿葡萄糖、總膽固醇、甘油三酯等的個(gè)人文件。


問(wèn)卷調(diào)查數(shù)據(jù):關(guān)于酒精使用、平衡、血壓、糖尿病、藥物使用、社會(huì)支持、視力、體重史等的個(gè)人文件。


圖片


通常,分析需要來(lái)自多個(gè)數(shù)據(jù)文件。例如,年齡和性別在人口統(tǒng)計(jì)項(xiàng)目中,而血壓測(cè)量在檢查項(xiàng)目中,膽固醇變量在實(shí)驗(yàn)室項(xiàng)目中,關(guān)于先前診斷或服用高血壓藥物的問(wèn)題在問(wèn)卷組件中。在對(duì)心血管疾病的完整分析中可能需要所有這些變量。


需要注意:NHANES在不斷地更新數(shù)據(jù),也在不斷地撤回?cái)?shù)據(jù)。


同一文件在不同年份的名稱也有差別,例如入口學(xué)數(shù)據(jù)在1999年為demo.xpt,而在2001年則為demo_a.xpt,而當(dāng)你以為以后都是demo_字母.xpt這樣排序時(shí),到了2019年又變成了p_demo.xpt。所以千萬(wàn)注意文件名,以保證你下載或讀取的數(shù)據(jù)是正確的。


圖片






4、變量


一個(gè)分析過(guò)程往往需要來(lái)自一個(gè)或多個(gè)調(diào)查周期的數(shù)據(jù)。要確定分析中需要哪些變量,需要確定潛在的分析變量并查看調(diào)查文檔。有多種方法可以識(shí)別潛在變量。


要查找特定變量:可以通過(guò)訪問(wèn)問(wèn)卷、數(shù)據(jù)集和相關(guān)文檔頁(yè)面中的搜索變量鏈接來(lái)執(zhí)行關(guān)鍵字搜索??梢运阉魉姓{(diào)查周期或?qū)⑺阉飨拗茷閱蝹€(gè)數(shù)據(jù)發(fā)布周期。仔細(xì)閱讀搜索結(jié)果中每個(gè)“命中”的文檔,因?yàn)椴⒎敲總€(gè)返回的結(jié)果都與您的分析相關(guān)。




圖片




切記切記:在選取變量之前,一定要仔細(xì)閱讀每個(gè)變量的文檔,因?yàn)椴⒎敲總€(gè)返回的結(jié)果都與你的分析相關(guān)。例如,假設(shè)你準(zhǔn)備使用膽固醇變量(cholesterol)進(jìn)行分析,并按關(guān)鍵字“甘油三酯”(triglycerides)進(jìn)行搜索。標(biāo)準(zhǔn)生物化學(xué)配置文件 (BIOPRO) 包含甘油三酯(Triglycerides)的變量(變量LBXTR)。但是,使用參考分析方法(變量LBXTR)的甘油三酯實(shí)驗(yàn)室測(cè)試結(jié)果包含在膽固醇 - 低密度脂蛋白和甘油三酯文件 (Cholesterol - LDL & Triglycerides file (TRIGLY)) 中。這是用于最準(zhǔn)確數(shù)據(jù)分析的適當(dāng)變量。所以:一定要仔細(xì)閱讀變量描述。


另外:變量名稱可能會(huì)發(fā)生變化,并且可能會(huì)在不同的年份中添加重新編碼、標(biāo)簽發(fā)生變化或派生的變量。如果感興趣的變量的名稱或標(biāo)簽已更改,則必須查明措辭、定義和/或響應(yīng)類別是否已修改,然后重新編碼變量以使其名稱和響應(yīng)類別在追加之前保持一致。


例如參軍狀態(tài)變量:在2010年之前是dmqmilit,但是2011年之后改叫dmqmiliz。


圖片


并且前后的編碼也稍有差別,雖然都是1表示Yes,2表示No,7表示Refused,9表示Don't know。但是2010年之前的know中k為小寫,而之后的k為大寫的K。


圖片




小結(jié)


NHANES數(shù)據(jù)由Years、Items、files、variable這4個(gè)部分組成


Years的格式固定,為2年周期


Items根據(jù)數(shù)據(jù)采集方式分為5種類型


files根據(jù)數(shù)據(jù)類型分為多種文件,即使同一文件在不同年份的名稱也會(huì)有差別


variable為變量名稱


變量是不斷變化


變量編碼也可能不斷變化


還會(huì)不斷增加新的編碼


在數(shù)據(jù)分析之前,一定要詳細(xì)了解你要采集的數(shù)據(jù),詳細(xì)解讀數(shù)據(jù)的介紹、字段的介紹,確保你選擇的數(shù)據(jù)是正確的

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容