本文是在讀書會上對下面文獻做數據復制之后的簡單整理,參考文獻:
劉欣、胡安寧,2016,《中國公眾的收入公平感:一種新制度主義社會學的解釋》,《社會》第4期。
在大型的社會調查中,問卷往往會涉及受訪者的具體職業(yè) ,而我們知道職業(yè)的類別之多,往往讓我們對這一變量無從下手。如下圖是來自于CGSS2006(2006年中國綜合社會調查,該數據向社會公開,研究者可以通過中國國家調查數據庫下載獲取)問卷中的一道題,問卷中該題目詢問了受訪者的職業(yè)類別,而在問卷中要求受訪者回答具體的職業(yè):如“小學教語文兼年級組長”等等,可以想象,具體的職業(yè)類別一定會紛繁復雜,每一種職業(yè)都是一個類別,這樣產生的類別可能高達好幾百種,但是在對問卷數據進行分析的時候我們不可能對這幾百種職業(yè)類別都進行分析(如放到回歸模型中去跑),那怎么來處理職業(yè)這個超多類別的變量呢。本文將介紹一種處理辦法:將職業(yè)這個超多類別的類別變量轉換成職業(yè)聲望(定序/定距變量)。變?yōu)槎ň嘧兞恐缶涂梢愿臃奖愕貞玫綌祿P椭腥チ恕?br>

我們首先使用 codebook 命令來看看數據中對這道題的編碼(部分),如下圖所示這是CGSS項目組在調查時采用的職業(yè)編碼,從1000—8009涵蓋了各種各樣的職業(yè)。

我們現在要做的工作就是將這些職業(yè)編碼全部轉換成職業(yè)聲望得分,需要兩步完成。
1、先將CGSS問卷的職業(yè)編碼轉換成通用的國際標準職業(yè)編碼ISCO(International Standard Classification of Occupations)。
2、然后再將國際標準職業(yè)編碼轉換成國際標準職業(yè)聲望(Standard International Occupational Prestige Scale,SIOPS)得分(Treiman,1977)。
ISCO-88 是由國際勞工組織(International Labor Organization,ILO)發(fā)布的國際標準職業(yè)分類(ILO,1990)。Ganzeboom 等人(1992)以這套國際標準職業(yè)分類為標準,采用從最不發(fā)達到最發(fā)達的 16 個國家的 31 套數據,提出了一套國際標準職業(yè)社會經濟地位測量指標,包括 ISEI、Treiman’s SIOPS 和 EGP 職業(yè)分類。這套指標不僅具有國際代表性,而且解決了國別差異問題(Duncan,1961;Ganzeboom,Graaf and Treiman,1992)。這三個指標分別代表了職業(yè)社會經濟地位測量的三個維度:聲望維度、社會經濟維度和階級維度。每個維度的指標都有著不同的測量和建構邏輯。Treiman’s SIOPS 是由 Treiman(1977)整合 60 個國家之職業(yè)聲望量表編制而成,主要依據不同國家之職業(yè)聲望量表而來,該數值表示不同職業(yè)類別在社會上所代表的聲望高低;而 ISEI 則是由 Ganzeboom 等人(1992)對鄧肯社會經濟地位指數(Duncans’ SEI)(Duncan,1961)的改進,基于職業(yè)的平均受教育水平和收入計算而來。與 Treiman’s SIOPS 和 ISEI 不同的是,EGP 職業(yè)分類是一種分類指標。ISEI 和 Treiman’s SIOPS 都是連續(xù)性指標,其數值的大小反映了職業(yè)間相對地位的不同。EGP 職業(yè)分類基于 Erikson 和 Goldthorpe(1992:37-40)的職業(yè)分類框架,以勞動力市場上的雇傭關系和技能水平作為劃分職業(yè)分類的維度,將職業(yè)劃分為 10 個類別。(此段引自中國家庭追蹤調查CFPS2010的技術文檔《中國家庭動態(tài)跟蹤調查——職業(yè)社會經濟地位測量指標構建》,源文檔請參看鏈接CFPS2010年技術報告),本文僅示范將 ISCO-88轉換成Treiman’s SIOPS,其他同理,讀者請自行嘗試。
不過人家Ganzeboom也說了,1988年的ISCO遲早都要被2008年的ISCO-08所取代的。

迄今為止,唐啟明(Donald?J?Treiman)的職業(yè)聲望量表仍是社會學領域普遍使用的具有權威性的量表。中國社會學界目前尚無關于中國職業(yè)聲望的權威測量,因此,海內外學者在研究中國社會的相關問題時,常采用唐啟明的職業(yè)聲望量表。 雖然唐啟明的職業(yè)聲望量表對中國社會的適用性仍需用實證資料進一步加以檢驗,但就已有的研究結果來看,這一量表仍不失為一種較有效的測量(劉欣、胡安寧,2016)。將職業(yè)這個類別變量轉換成職業(yè)聲望得分之后可以更容易地進入數據模型中。
CGSS2006已經將問卷中的職業(yè)編碼轉換成了ISCO-88的編碼,變量名為 isco_nc ,這為我們省去了第一步,只需要進行接下來的第二步就可以了,將ISCO-88轉換成SIOPS。
stata提供了專門的外部命令來處理這些轉換。
通過 findit isko 命令我們安裝 isko 命令包(好像要掛vpn才可以連上)


安裝完畢之后,通過 help isko 來看看用法吧:

通過上述用法,我們只需要寫出下面的一條命令便可完成轉換了:
iskotrei siops, isko(isco_nc)
轉換完之后的數據如下所示,接下來的數據分析我們就可以直接使用職業(yè)聲望得分(siops)了,用起來更加方便。如果有需要,我們還可以再將siops的分數做二次轉換,若有合適的臨界值(可以看看劉欣,胡安寧的文章,比較巧妙的找到了劃分的臨界值),可以將siops轉為職業(yè)聲望高、中、低三個類別的類別變量,運用replace 或者 recode 命令很容易就做到了,就不再多說了。

同樣的道理大家還可以將ISCO-88轉換成ISEI等等、命令按照help中給出的寫法即可。
iskoisei isei, isko(isco_nc)
..........
此外,還有適用于ISCO-68轉88的命令 isco,感興趣的可以通過 findit isco獲取,然后通過help isco查看具體的用法。