論文、期刊、學(xué)術(shù)數(shù)據(jù)獲取渠道--調(diào)查篇(二)

還在為寫論文做學(xué)術(shù)找不到數(shù)據(jù)而發(fā)愁嗎?

其實數(shù)據(jù)集的獲取有很多的渠道,主要是需要的是哪種數(shù)據(jù),現(xiàn)小編就總結(jié)了一些數(shù)據(jù)集的獲取渠道,在寫論文或者做學(xué)術(shù),甚至工作中的時候,都可以通過不同的渠道去尋找自身需要的數(shù)據(jù)。

上期介紹了三個大數(shù)據(jù)競賽平臺,里面有很多的大數(shù)據(jù)競賽,并會提供相應(yīng)的數(shù)據(jù);這期將帶大家看看國內(nèi)影響較高的三個全國性的大調(diào)查吧,調(diào)查數(shù)據(jù)在論文和核心期刊中受到廣泛認(rèn)可。

數(shù)據(jù)

獲取

01CEPS

1.1.??????簡介

“中國教育追蹤調(diào)查”(CEPS)是中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心(National Survey Research Center,NSRC)重要的常規(guī)調(diào)查項目之一。項目旨在記錄并解釋青少年學(xué)生從較低教育階段向較高教育階段發(fā)生轉(zhuǎn)變的教育過程。該項目發(fā)端于2009年創(chuàng)立的“首都大學(xué)生成長追蹤調(diào)查”項目(BCSPS)。在此經(jīng)驗基礎(chǔ)上,“中國教育追蹤調(diào)查(初中階段)”將“中國教育追蹤調(diào)查”項目擴(kuò)展至義務(wù)教育階段。調(diào)查計劃于2013-2014?學(xué)年針對七年級和九年級的初中在校生全面展開,其基線調(diào)查于2013年秋季學(xué)期和2014年春季學(xué)期進(jìn)行。進(jìn)入樣本的七年級學(xué)生將進(jìn)行3個輪次的年度跟蹤調(diào)查,考查其初中階段教育過程以及升入高中或進(jìn)入勞動力市場的情況;九年級學(xué)生將于次年進(jìn)行一次追蹤調(diào)查,考查其升入高中或進(jìn)入勞動力市場的情況。

1.2.??????總體介紹

“中國教育追蹤調(diào)查(初中階段)”采用分層次、多階段、概率與規(guī)模成比例(PPS)的抽樣方法,以學(xué)校為基礎(chǔ),在全國范圍內(nèi)抽取112所學(xué)校、448個班級共計約22400名學(xué)生作為調(diào)查樣本,該樣本在全國范圍具有代表性。調(diào)查針對學(xué)生、家長、班主任、任課教師以及學(xué)校領(lǐng)導(dǎo)分別設(shè)計了5套問卷,旨在全面收集與教育過程相關(guān)的不同層次的基礎(chǔ)數(shù)據(jù),包括地方教育政策、學(xué)校課程結(jié)構(gòu)、師生關(guān)系、學(xué)生朋輩關(guān)系、家庭環(huán)境、家庭教育過程、親子關(guān)系、家校關(guān)系等等,進(jìn)而考查學(xué)生的學(xué)習(xí)機(jī)會、學(xué)習(xí)動機(jī)、努力程度以及發(fā)展過程。此外,調(diào)查針對七年級和九年級學(xué)生分別設(shè)計了一套標(biāo)準(zhǔn)化認(rèn)知能力水平測試。通過具有全國代表性的調(diào)查樣本收集如此大規(guī)模、多層次的教育數(shù)據(jù),在我國尚屬首次。

調(diào)查內(nèi)容包括學(xué)生的基本信息、戶籍與流動、成長經(jīng)歷、身心健康、親子互動、在校學(xué)習(xí)、課外活動、與老師/同學(xué)的關(guān)系、社會行為發(fā)展、教育期望、以及家庭成員基本信息,家長的基本信息、生活習(xí)慣、親子互動、家庭教育環(huán)境、家庭教育投入、社區(qū)環(huán)境、對學(xué)校教育的看法、與老師的互動、對孩子的教育期望,班主任老師對學(xué)生行為的評價、與學(xué)生家長的互動、對本地與外地戶籍學(xué)生的比較,包括班主任在內(nèi)的任課老師的個人基本信息、教育理念、日常教學(xué)工作、工作壓力與滿意度,學(xué)校負(fù)責(zé)人基本信息、教育理念,學(xué)校的基本信息、教學(xué)設(shè)施、招生入學(xué)、在校師生情況以及日常教學(xué)管理。

02??CHARLS

2.1.???背景

隨著中國人口的快速增長,老齡人口的供養(yǎng)日益成為一個重要問題。經(jīng)濟(jì)快速發(fā)展的特征之一是年輕一代的終身收入顯著地超過他們年老父母,老齡人口成為中國大的弱勢群體之一。與此同時,中國的生育控制政策意味著相比過去中國的老年人由更少的子女供養(yǎng)。如何解決為老年人提供良好生活保障的問題是近年來中國社會快速發(fā)展面臨的巨大挑戰(zhàn)之一。據(jù)預(yù)測,到2050年,我國60歲以上的老年人占總?cè)丝诘谋戎貙⒂?000年的10%增加到30%,而老年人口贍養(yǎng)比(25-64歲的壯年人口規(guī)模/65歲以上的人口規(guī)模)將由2000年的近13:1下降到2.1:1[1]。為了應(yīng)對這一挑戰(zhàn),CHARLS在家庭和社區(qū)兩個層面衡量這些社會保障體系的存在并對其進(jìn)行分析,為政府修正和完善現(xiàn)行政策提供更加科學(xué)的基礎(chǔ)[2]。

2.2.???總體介紹

中國健康與養(yǎng)老追蹤調(diào)查(China Health and Retirement LongitudinalStudy, CHARLS)旨在收集一套代表中國45歲及以上中老年人家庭和個人的高質(zhì)量微觀數(shù)據(jù),用以分析我國人口老齡化問題,推動老齡化問題的跨學(xué)科研究。調(diào)查內(nèi)容為老年家庭以及老年人及其配偶人的全面信息,包括健康狀況與功能、醫(yī)療保健與保險、收入支出與資產(chǎn)、住房狀況等。CHARLS全國基線調(diào)查于2011年開展,覆蓋150個縣級單位,450個村級單位,訪問了10257戶家庭的17708個人,總體上代表中國中老年人群。這些樣本以后每兩到三年追蹤一次,對所有被訪者都長期追蹤訪問,觀察其生命歷程的變化,而且被訪問對象包括退休前的中年人群[3]。

1.?樣本數(shù)

單位省區(qū)縣級單位村級單位家戶個人

樣本數(shù)281504501025717708

2.3.???抽樣過程[4]

CHARLS基線調(diào)查在全國28個省150個縣區(qū)的450個村、居開展。CHARLS樣本代表中國45歲及以上住戶人群,機(jī)構(gòu)中的老年人并沒有進(jìn)入抽樣,但是基線的受訪者在后續(xù)的調(diào)查中如果進(jìn)入到機(jī)構(gòu)中將會被隨訪。所有的樣本通過4個階段被抽出來。

2.3.1?第一階段:縣級抽樣

第一階段,除了西藏以外,全國其他所有的縣區(qū)通過地區(qū)排序,在地區(qū)內(nèi)按照城市和農(nóng)村進(jìn)行排序,然后再通過人均GDP進(jìn)行排序。地區(qū)是基于國家統(tǒng)計局關(guān)于省級地區(qū)的分類。排序后,會列出每個縣、區(qū)的人口以及累計人口。如果N是所有縣級抽樣單位的的總?cè)丝?,需要抽取的縣區(qū)是150個,我們定義一個間隔為n=N/150。第一個縣區(qū)的抽取是先選擇一個0到1之間的一個隨機(jī)數(shù),然后選擇第一個累計人口大于r*n的縣區(qū)作為第一個縣區(qū)。然后將n加上r*n這個起點,第二縣區(qū)就是累計人口大于r*n+n的第一個縣區(qū)。第三個縣區(qū)以此類推,在r*n+n的基礎(chǔ)上再加上間隔n,選擇累計人口大于r*n+n+n的第一個縣區(qū)。

2.3.2?第二階段:村、居抽樣

在農(nóng)村地區(qū)樣本選自行政村(村),城市地區(qū)以社區(qū)(社區(qū))作為首選抽樣單位(PSUs),社區(qū)包括一個或多個原居民委員會(居委會)。每個縣級單位選取3個PSU,使用PPS(規(guī)模比例概率)抽樣。需要注意的是,農(nóng)村的縣同時包括農(nóng)村村莊和城市社區(qū),城市地區(qū)同樣可能包括農(nóng)村村莊。對于每個縣級單位,PSU列表隨機(jī)排序。隨后列出每個PSU的人口與累積人口(該P(yáng)SU人口加上前面所有PSU人口數(shù))。如果N是這個縣級單位的人口總數(shù),抽樣PSU數(shù)量是3個,則定義區(qū)間n=N/3。第一個PSU在0到1之間隨機(jī)選擇數(shù)r,選擇第一個社區(qū)使累積人口大于r*n。以r*n作為起點,加上區(qū)間n,第二個PSU使累積人口大于r*n+n。第三個PSU再加上區(qū)間n,累積人口數(shù)大于r*n+n+n。這一過程在STATA中用samplepps命令執(zhí)行。

人口數(shù)量較多的社區(qū)(大于?2000?戶),基于地圖的抽樣框架花費(fèi)較高,允許負(fù)責(zé)人選擇該社區(qū)的一個地理分區(qū)作為?PSU,如一個或多個原居委會。抽樣需包含足夠的子社區(qū)以保證足夠數(shù)量的合格抽樣受訪者。子社區(qū)的選擇應(yīng)基于每個子社區(qū)的估計人口,我們有30個社區(qū)進(jìn)行了拆分。

因為原先的樣本框存在后來又有社區(qū)的合并和拆分情況,在抽中的450個村、居中,我們將6個村居進(jìn)行了替換,2個村是因為搬遷,1個社區(qū)居委會升級成為縣級的區(qū),2個社區(qū)幾乎全部為集體住所,1個為大學(xué)的宿舍區(qū),另外1個為監(jiān)獄,這些村居并不是我們的樣本。樣本村居的替換也是和其他村居完全一樣的抽樣方法。有6個縣區(qū)行政邊界發(fā)生變化,所以抽中的村、居分配在兩個縣區(qū)中。我們沒有替換這些村、居,結(jié)果終的縣區(qū)數(shù)為156個。

2.3.3?第三階段抽樣:家戶抽樣

在PSU中,我們從樣本框中選擇住戶樣本,樣本框是在當(dāng)?shù)貐f(xié)調(diào)人的幫助下由繪圖員根據(jù)地圖構(gòu)建的。為了準(zhǔn)確獲得每個村、居中家戶的樣本框,我們CHARLS-GIS繪圖/列表軟件。對于每一個PSU,一名繪圖員首先會攜帶GPS到社區(qū)收集邊界,然后CHARLS項目辦公室會使用邊界信息抓取Google Earth底圖,以此作為繪圖和列表的基礎(chǔ)。然后,每個PSU中的所有建筑物都會進(jìn)行拍照和GPS定位,并對每個建筑物中的住戶進(jìn)行列表。集體性住所如軍隊、學(xué)校、宿舍以及養(yǎng)老院被排除在樣本框之外。

CHARLS項目總部會對每個PSU中的樣本框進(jìn)行核查,保證村、居內(nèi)的所有建筑物都包括在內(nèi)。核對后,督導(dǎo)會使用CHARLS-GIS軟件隨機(jī)抽取80戶,以小紅旗的方式標(biāo)記在地圖上,并發(fā)送回實地的繪圖員進(jìn)行信息收集,包括住戶中長人的年齡、戶主的姓名、電話以及是否空戶。最后,實際抽中的數(shù)量在每個PSU中會超過目標(biāo)樣本24戶,因為某些住戶可能沒有45歲以上的受訪者、或者空戶、無應(yīng)答。以80戶中的收集的信息為基礎(chǔ),包括長人的年齡、戶主的姓名、電話以及是否空戶等,督導(dǎo)會使用CHARLS-GIS軟件在每個社區(qū)、村居抽取一定數(shù)目的住戶。開始的樣本是一個80戶的隨機(jī)樣本,從這些戶中我們計算適齡率、空戶率指標(biāo)。然后分別估算每個村居的樣本數(shù)量,從整個樣本框中抽取樣本。

每個PSU的終抽樣工作結(jié)束后,抽中的住戶信息再次返給繪圖員,繪圖員將這些信息在CHARLS-GIS軟件上進(jìn)行加載。然后,繪圖員會給抽中的住戶送“至居民的一封信”。同時,CHARLS項目的IT會把每個村、居抽中的住戶列表和地址導(dǎo)入到訪員的CAPI系統(tǒng)中。

我們對每個PSU中的所有能夠找到并愿意參與調(diào)查的適齡戶進(jìn)行了訪問。某些住戶單元有多個家戶住在一起。這種情況下,我們隨機(jī)選擇一個有適齡受訪者的家戶進(jìn)行調(diào)查。因為PSU中的住戶因為找到與否、是否有適齡受訪者或者愿意參加與否的不同,所以每個PSU后完成的受訪戶數(shù)量也不同。這些都會在樣本權(quán)重上進(jìn)行調(diào)整。

2.3.4?第四階段抽樣:個人抽樣

在每個抽中的家戶中,會有一個短的過濾問卷來確認(rèn)家戶中是否有適齡要求的受訪者。如果一個家戶中有多個超過40以上的人,我們隨機(jī)選擇一個。如果抽中的人年齡在45歲以上,他/她作為主要受訪者,并同時訪談他或她的配偶。如果抽中的人年齡在40-44歲之間,他/她作為預(yù)留樣本以后進(jìn)行調(diào)查。如果適齡成員無法回答問題,我們指定一個代理受訪者幫助他或她回答問題,如果受訪者有配偶或知情的成年子女,通常作為代理受訪者。無45歲及以上成員的家庭沒有對其進(jìn)行訪問。

03 CHFS

3.1 簡介

中國家庭金融調(diào)查(ChinaHouseholdFinanceSurvey,CHFS)是西南財經(jīng)大學(xué)中國家庭金融調(diào)查與研究中心(下稱中心)在全國范圍內(nèi)開展的抽樣調(diào)查項目,由甘犁教授于2009年發(fā)起并領(lǐng)導(dǎo),每兩年調(diào)查一次且有持續(xù)的追蹤調(diào)查,收集有關(guān)家庭金融微觀層次的相關(guān)信息。

調(diào)查的內(nèi)容主要包括:金融資產(chǎn)和包括住房資產(chǎn)在內(nèi)的非金融資產(chǎn)、負(fù)債和信貸約束、收入、消費(fèi)、社會保障與保險、代際轉(zhuǎn)移支付、人口特征和就業(yè)以及支付習(xí)慣等。中心每兩年進(jìn)行一次全國性入戶追蹤調(diào)查訪問,已經(jīng)分別在2011年和2013年成功實施兩次調(diào)查。2011年第一輪調(diào)查樣本分布在全國25個?。ㄗ灾螀^(qū)、直轄市),80個縣(區(qū)、縣級市),320個村(居)委會,樣本規(guī)模為8438戶。2013年第二輪調(diào)查樣本分布在全國29個?。ㄗ灾螀^(qū)、直轄市),262個縣(區(qū)、縣級市),1048個村(居)委會,樣本規(guī)模為28141戶。同時,新一輪調(diào)查在保證全國代表性的前提下,增加了數(shù)據(jù)的省級代表性。中心于2014年開展季度電話回訪,每次回訪規(guī)模約為5000戶,季度問卷內(nèi)容為物價、房價、股價預(yù)期;房屋交易;借貸行為等。最新公開的2017年數(shù)據(jù)樣本量為41000左右家庭,同時調(diào)查數(shù)據(jù)具有很好的全國代表性,以及較高的調(diào)查精度,調(diào)查的各項指標(biāo)與國家統(tǒng)計局的公布數(shù)據(jù)非常接近[1]。

3.2 抽樣過程

中國家庭金融調(diào)查各年度抽樣具有連續(xù)性,樣本量逐步擴(kuò)大。

中國家庭金融調(diào)查的抽樣框為2010年人口普查框+國家統(tǒng)計局社區(qū)目錄,本項目的整體抽樣方案采用了分層、三階段與規(guī)模度量成比例(PPS)的抽樣設(shè)計。第一階段抽樣在全國范圍內(nèi)抽取市/縣;第二階段抽樣從市/縣中抽取居委會/村委會;最后在居委會/村委會中抽取住戶。每個階段抽樣的實施都采用了PPS抽樣方法,其權(quán)重為該抽樣單位的人口數(shù)(或戶數(shù))。

第一階段是區(qū)縣抽樣。目標(biāo)是從2585個市縣中抽取80個市縣,將2585個市縣按照人均GDP分成十層,在每個層內(nèi)以市縣人口數(shù)為權(quán)重,采用PPS抽樣抽取8個市縣,共抽得80個市縣,樣本涵蓋全國25個省,

第二階段是村/居委抽樣。目標(biāo)是從市縣中抽取居委會/村委會樣本,其具體實施方法如下:

第一,按照各市縣的非農(nóng)人口比例的分位數(shù),將各市縣分成5個組。分組的依據(jù)是各市縣非農(nóng)人口比重20%、40%、60%和80%的分位數(shù)。

第二,在非農(nóng)人口比例最大的市縣組中,居委會和村委會分配的樣本比例是4:0。

第三,在非農(nóng)人口比例次大的市縣組中,居委會和村委會分配的樣本比例是3:1。

第四,以此類推,在非農(nóng)人口比例最低的市縣組中,居委會和村委會分配的樣本比例是0:4。

基于上述樣本分配方式,在既定市/縣內(nèi)形成了城鎮(zhèn)和農(nóng)村兩個抽樣框。在城鎮(zhèn)和農(nóng)村抽樣框內(nèi),其抽取的居委會和村委會樣本數(shù)量是已知的。因此可以分別按照各居委會(村委會)的居民戶數(shù)進(jìn)行PPS抽樣。

第三階段為家庭住戶抽樣。在每個抽中的村、居委會,本調(diào)查在城鎮(zhèn)地區(qū)根據(jù)社區(qū)住房價格對高房價地區(qū)進(jìn)行重點抽樣,即房價越高,分配的調(diào)查戶數(shù)就相應(yīng)越多;而在農(nóng)村地區(qū)將樣本量固定為20戶。由此得到每個城鎮(zhèn)社區(qū)訪問的樣本量為25至50個家庭。在每個抽中的家庭,對符合條件的受訪者進(jìn)行訪問,所獲取的樣本具有全國代表性[2]。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容