什么是Census
Census是指人口普查,一種用于收集關(guān)于人口、住房、就業(yè)和經(jīng)濟等方面信息的全國性調(diào)查,在美國它是由商務(wù)部下屬的人口普查局(US Census Bureau)負(fù)責(zé)執(zhí)行的。自1790年第一次人口普查以來,美國的Census每隔十年進行一次,已經(jīng)進行了23次,每次普查都收集了海量的數(shù)據(jù),包括人口、家庭、住房、教育、收入、就業(yè)、種族和民族等各種方面的信息,用于幫助政府和社會各界可以更好地了解國家的人口、社會和經(jīng)濟情況
人口普查局會利用如下方式來進行數(shù)據(jù)采集:
? ? 1) 地圖制作:在Census開始前,人口普查局會制作一張全國地圖,并將其分成小區(qū),以便確定每個小區(qū)的邊界和人口數(shù)量。這些小區(qū)稱為Census Tracts。
? ? 2) 發(fā)送調(diào)查表:然后人口普查局會向每個家庭郵寄調(diào)查表。調(diào)查表通常包括有關(guān)家庭成員、住房條件、收入、就業(yè)和其他相關(guān)信息的問題。
? ? 3) 進行電話和面訪:如果家庭未能回復(fù)調(diào)查表,人口普查局可能會通過電話或面訪的方式收集數(shù)據(jù)。面訪通常由訓(xùn)練有素的人口普查員進行。
? ? 4) 數(shù)據(jù)收集和整理:人口普查局收集數(shù)據(jù)后,會對其進行整理和處理。這包括檢查數(shù)據(jù)的完整性和準(zhǔn)確性,對數(shù)據(jù)進行分類和編碼,以及將其存儲在計算機系統(tǒng)中。
Census收集的數(shù)據(jù)字段包括人口數(shù)量、年齡、性別、種族和民族、婚姻狀況、家庭結(jié)構(gòu)、教育程度、收入、就業(yè)情況、住房條件、遷移情況等等。這些數(shù)據(jù)對于了解美國的人口、社會和經(jīng)濟狀況非常重要,并被廣泛用于政府政策制定、社會研究和商業(yè)決策等方面。
Census數(shù)據(jù)在美國是公開可用的,人口普查局完成收集和處理后,會將Census數(shù)據(jù)以多種形式發(fā)布。以下是公眾獲取Census數(shù)據(jù)的常見方式,鏈接我就不提供了,有興趣的可以自己搜索:
? ? 1) American FactFinder:這是一個免費的在線工具,允許用戶訪問和下載Census數(shù)據(jù)。用戶可以在該工具中輸入他們感興趣的主題或地理位置,并通過各種方式瀏覽和搜索數(shù)據(jù)。
? ? 2) Census Bureau API:它是免費的Web服務(wù),允許開發(fā)人員使用API自動化獲取和處理數(shù)據(jù)。
? ? 3) Census Bureau FTP:它允許用戶以ZIP文件的形式下載Census數(shù)據(jù)。用戶可以在該站點上按照地理位置或主題進行瀏覽和下載數(shù)據(jù)。
? ? 4) Census Bureau Data Visualization Gallery:這是一個在線工具,展示了人口普查局發(fā)布的各種數(shù)據(jù)可視化和地圖。用戶可以在該工具中探索和發(fā)現(xiàn)有關(guān)美國人口、社會和經(jīng)濟的各種數(shù)據(jù)。
Census的隱私挑戰(zhàn)
Census項目一方面大規(guī)模收集個人敏感信息,如個人身份、地址、家庭成員、收入等;同時還要公開分享數(shù)據(jù)集支持?jǐn)?shù)據(jù)有效利用,可想而知隱私保護一直都是它最大的挑戰(zhàn)。在過去的幾十年中,人口普查局采用了許多不同的數(shù)據(jù)保護技術(shù),以確保發(fā)布數(shù)據(jù)的隱私和安全。
? ? 1) 從20世紀(jì)60年代開始,使用數(shù)據(jù)抑制處理有關(guān)個人身份的信息,如姓名和地址,在數(shù)據(jù)發(fā)布時都會被刪除,僅在統(tǒng)計數(shù)據(jù)中保留一些基本信息,用于保護個人隱私。
????2) 在70年代和80年代,開始使用加密/假名化技術(shù)來保護Census數(shù)據(jù)的隱私。該技術(shù)涉及將數(shù)據(jù)轉(zhuǎn)換為一些不可讀的代碼,并需使用密鑰來解密原始數(shù)據(jù)。
????3) 在20世紀(jì)90年代,開始使用數(shù)據(jù)擾動添加噪音的方式來保護個人隱私。例如:將某些家庭的記錄與附近地區(qū)具有相似特征的家庭的記錄交換(Data Swapping),從而在數(shù)據(jù)中注入“噪音”。該類技術(shù)會在Census數(shù)據(jù)中引入一些隨機誤差,以便個人無法被準(zhǔn)確識別。
2018年,人口普查局基于2010年普查發(fā)布的公開數(shù)據(jù)做了一次模擬數(shù)據(jù)重建攻擊實驗。他們首先重建出3.08億人的基本信息(居住區(qū)域、性別、年齡,種族和民族)。然后將這些重建后的記錄拿來和外部可購買到的商業(yè)數(shù)據(jù)庫中的個人信息進行匹配,找到了1.38億個匹配結(jié)果,并最終正確地重識別出5200萬個自然人,占到了美國總?cè)丝诘?7%。這個結(jié)果是讓人震驚的,它代表著即使人口普查局應(yīng)用了各種技術(shù)手段來保護隱私,還是有近兩成的個人信息可能被完全泄漏。
所以在2020年的人口普查中,普查局決定引入一種基于差分隱私的數(shù)據(jù)避免披露框架。
差分隱私在Census的應(yīng)用
差分隱私的目標(biāo)是掩蓋個人信息在某個數(shù)據(jù)集中的存在或不存在,但同時又保證數(shù)據(jù)集在統(tǒng)計層面的有效性。差分隱私還有一個重要優(yōu)勢是它可以量化披露風(fēng)險的級別。

差分隱私的原理和實現(xiàn)邏輯我們在本文中不進行詳細(xì)介紹,可查看這里的擴展閱讀。它作為一個框架,能實現(xiàn)無論數(shù)據(jù)集中是否包含某個特定自然人,它的任何數(shù)據(jù)分析的結(jié)果幾乎都是相同的,從而實現(xiàn)對自然人機密信息的保護。
與人口普查局之前使用的數(shù)據(jù)保護方法相比,差分隱私具有一些明顯的優(yōu)勢:
????1) 差分隱私允許人口普查局對發(fā)布的數(shù)據(jù)集進行跟蹤和解決潛在的隱私損失。
? ? 2) 差分隱私處理后的數(shù)據(jù)可以發(fā)布、分析并鏈接到其他數(shù)據(jù),而不會增加任何泄露風(fēng)險; 一旦數(shù)據(jù)被處理,無論數(shù)據(jù)如何使用,都不會再有隱私損失。
????3) 差分隱私提供數(shù)學(xué)上可證明的隱私保證以防止?jié)撛陔[私攻擊。
? ? 4) 差分隱私是透明的,不同于之前的數(shù)據(jù)保護方法,如數(shù)據(jù)交換。 差分隱私的編程代碼和決策對公眾開放; 唯一未公布的信息是添加到給定數(shù)據(jù)點的噪聲的確切值。
人口普查局在2020使用的數(shù)據(jù)保護方法有兩個部分:差分隱私算法和后處理,差分隱私算法給數(shù)據(jù)增加了噪聲,而后處理增強一致性。兩者被整合到一個稱為自上而下算法??(TDA-TopDown Algorism)??的框架內(nèi)。
1-數(shù)據(jù)準(zhǔn)備
首先人口普查局為 2020 年人口普查重新分配數(shù)據(jù)文件編制了一份交叉表,該表反映了每個地理層級(從國家層面到州,再到最低層級的人口普查區(qū))的所有變量。在已發(fā)布的重新劃分?jǐn)?shù)據(jù)文件中,人口特征有 252 種可能的種族、民族和年齡組合(63 x 2 x 2 = 252)。住房特征包含了八種居住類型(住房單元加七種集體宿舍類型)和兩種居住狀態(tài)類別,構(gòu)成每個地理單元的有262(252 + 8 + 2)個不同的已發(fā)布數(shù)據(jù)類型。

為了生成這些已發(fā)布的數(shù)據(jù),TDA 使用了一個更詳細(xì)的交叉表,將 252 個種族、族裔和年齡類別與八個居住類別(住在一個住房單元和七個集體宿舍類型)相結(jié)合,得到 2,016(252 x 8) 每個地理單元的不同數(shù)據(jù)元素。
2-添加噪音
2020 年人口普查中大約有 800 萬個人口普查區(qū)(block)——這是最小地理區(qū)域。 每個區(qū)都有 2,016 個數(shù)據(jù)元素,這意味著 TDA 中的人有超過 160 億個數(shù)據(jù)單元。 為每個數(shù)據(jù)單元提供高度準(zhǔn)確的信息會帶來隱私泄漏風(fēng)險; 因此,添加了噪音以保護個體受訪者的數(shù)據(jù)機密性。 向數(shù)據(jù)添加噪聲意味著對于任何給定的數(shù)據(jù)統(tǒng)計值,TDA 可能會在計數(shù)中添加或減去少量數(shù)據(jù)以掩蓋原始值。
引入的噪音水平由“隱私損失預(yù)算”控制——該預(yù)算定義了可能發(fā)生的隱私損失的絕對上限。 隱私損失預(yù)算可以設(shè)置得更高或更低,隨著隱私損失預(yù)算的增加,噪聲減少(抽取的隨機噪聲數(shù)中有更大可能性為零或接近于零),這意味著數(shù)據(jù)將更加準(zhǔn)確,但攻擊者重建數(shù)據(jù)用于重新識別自然人的可能性也上升。
這種隱私損失預(yù)算可以設(shè)置在從“無準(zhǔn)確性但高保護”到“高精度但無保護”范圍內(nèi)的任何位置。 選擇隱私損失預(yù)算是一項基于準(zhǔn)確性和保密性之間平衡的決策,它必須同時考慮到人口普查局的法律義務(wù)和數(shù)據(jù)使用者對數(shù)據(jù)效用的需求。 預(yù)算越低,保護越高,每個數(shù)據(jù)點的精確度就越低。同時,總的隱私損失預(yù)算必須在人口特征、住房特征和地理級別之間進行分配。
整體隱私損失預(yù)算必須分配給所有已發(fā)布的人口普查產(chǎn)品(表格和微數(shù)據(jù))。花費一些預(yù)算來提高數(shù)據(jù)的某個維度的準(zhǔn)確性(例如更準(zhǔn)確的街區(qū)總?cè)丝谟嫈?shù))可能意味著在另一個維度(例如種族細(xì)節(jié))的準(zhǔn)確性上有更少的預(yù)算。

如上所示的表單中演示了如何將噪音添加到一個由5個人口普查區(qū)組成的數(shù)據(jù)表。這里展示的是第一步,將噪音獨立添加到各個單元格中。在TDA中,添加到任意單元格的噪音都是隨機抽取的,與該單元格所代表的人口規(guī)模沒有關(guān)系。也就是說兩個分別有十萬人和一千人的人口調(diào)查區(qū),統(tǒng)計數(shù)值增加5的可能性是相同的,這代表著絕對誤差相同。所以有著較少人口數(shù)的調(diào)查區(qū)會有更高的相對誤差,這有利于降低小群體的重識別風(fēng)險。同時,我們?yōu)槊總€單元格的每個特征獨立添加了噪聲,這將導(dǎo)致邏輯上的不一致。比如總?cè)丝跀?shù)和分項統(tǒng)計的人口總數(shù)不一致。
在實際的噪音生成過程中,人口普查局是通過地理層級嵌套(國家—州—縣—tract區(qū)—街區(qū)—block人口普查區(qū))的方式來進行的。TDA使用差分隱私機制先在國家層級創(chuàng)建一個新的注入噪聲的數(shù)據(jù)集,然后再對州這個級別重復(fù)該過程,同時利用優(yōu)化程序確保人口和住房特征的在各個分類的總數(shù)和先前國家層面的統(tǒng)計數(shù)據(jù)一致。這個過程持續(xù)重復(fù)到最低一個層級 - 人口普查區(qū)。
3-后處理
差分隱私的噪聲注入提供了可量化和可證明的隱私保證,這個保證反映為全局隱私損失預(yù)算及其在每個統(tǒng)計數(shù)值上的分配。它也可以被看作是對自然人的一個承諾,即攻擊者通過重識別帶來的風(fēng)險是有一個上限值的。
因為一些特殊國情,TDA部分背離了傳統(tǒng)的差分隱私框架,它的數(shù)據(jù)中包含了某些不變量—即不會添加任何噪音的特征數(shù)據(jù)。比如:
? ? 1)每個州的總?cè)藬?shù)(它會被用于重新分配美國眾議院在各州的席位數(shù)量);
????2)每個人口普查區(qū)的住房單元總數(shù);
? ? 3)每個人口普查區(qū)中被占用的團體宿舍設(shè)施數(shù)量(大學(xué),護理機構(gòu),軍營,懲教設(shè)施等);
不變量的使用會削弱差分隱私的保護強度,這里我們不做展開討論。
除此之外,TDA還有一些預(yù)定義的全局約束,用于解決數(shù)據(jù)的不一致問題,它們適用于所有的地理層級:
? ? 1)人口和住房數(shù)量必須為整數(shù)且不得為負(fù)數(shù)。
? ? 2)表格中各單元格的值相加應(yīng)該等于單項統(tǒng)計總數(shù),而行或者列的總數(shù)統(tǒng)計應(yīng)等于表格中的總?cè)藬?shù)。
????3)對于指定的統(tǒng)計范圍,計數(shù)值應(yīng)該在同一表內(nèi)以及不同表之間保持一致。例如,按種族劃分的人口總和必須等于總?cè)丝?,已占用和空置住房單元的?shù)量總和必須等于住房單元總數(shù),州內(nèi)每個縣的人口總和必須等于該州的總?cè)丝?.
? ? 4)如果某個地理區(qū)域中的住宅和集體宿舍 (GQ) 設(shè)施為零,則不得向該地理區(qū)域分配人員。
? ? 5)每個 GQ 設(shè)施的人數(shù)大于或等于 1。
? ? 6)每個住宅或集體宿舍的人數(shù)小于或等于99,999。
基于如上條件,TDA會對數(shù)據(jù)進行后處理,以滿足規(guī)范。

上表是基于數(shù)據(jù)后處理的一個實際例子。首先,第四區(qū)中成年人人數(shù)的 –1 被調(diào)整為非負(fù)數(shù)。 然后是一些不一致的問題,例如原來第五區(qū)總?cè)藬?shù)小于成年人人數(shù)的問題也得到了解決。 最后調(diào)整噪聲特征以匹配所有相關(guān)地理區(qū)域的總噪聲人口。 在此示例中,初始噪聲塊總數(shù)總和為 257,但必須調(diào)整為 254。
4-未解決的數(shù)據(jù)問題
后處理步驟可能會引入偏差,例如在刪除負(fù)值或?qū)Y(jié)果數(shù)據(jù)施加其他約束時。 TDA中這個框架的一個關(guān)鍵特征是統(tǒng)計數(shù)據(jù)的準(zhǔn)確性和可靠性會隨著被測量的基礎(chǔ)人口的增加而增加。因為它使用所謂的多通道后處理(multi-pass postprocessing)。首先處理國家層面的數(shù)據(jù),然后是州層面,一層層往下。每層處理時會首先求解該地理層面內(nèi)每個單位的人口數(shù)量(例如,州內(nèi)每個縣的人口或縣內(nèi)每個人口普查區(qū)的人口), 接下來,該算法基于確定的人口總數(shù)來求解其他特征的各類統(tǒng)計數(shù)據(jù)。
當(dāng)然噪聲注入不可避免的會在發(fā)布的數(shù)據(jù)集中產(chǎn)生一些違反常識的結(jié)果。 例如:
????? 一個街區(qū)只有一個住宅但有幾十個人。
????? 一個街區(qū)有18 歲以下的兒童居住,但沒有成年人。
????? 一個街區(qū)有人居住,但所有住宅都顯示為空置。
這些不合理的統(tǒng)計結(jié)果通常發(fā)生在人口數(shù)較少的統(tǒng)計層級中。 數(shù)據(jù)用戶會發(fā)現(xiàn),隨著數(shù)據(jù)聚集到更大的地理區(qū)域,這類結(jié)果出現(xiàn)的頻率會降低,而估計的準(zhǔn)確性會提高。 這個問題目前并沒有好的方法來避免,因此人口普查局的建議對于許多用例,例如詳細(xì)的住房或家庭人口分析,最低層級的數(shù)據(jù)可能噪音太大,希望數(shù)據(jù)用戶將數(shù)據(jù)組合到人口較多的地理區(qū)域,這樣可以減少差分隱私噪音對數(shù)據(jù)統(tǒng)計結(jié)果的正確性干擾。
5-隱私預(yù)算值
為了達(dá)到特定的隱私保護級別,隱私損失預(yù)算(PLB)可以象表盤一樣調(diào)整,它會影響的隨機噪聲的范圍分布。 更高的 PLB 值意味著更高的數(shù)據(jù)準(zhǔn)確性和更少的私密性。 隨著 PLB(ε - epsilon)上升,添加到任何給定單元格的噪聲越來越有可能為零。 而較低的 PLB 值意味著較低的準(zhǔn)確性以及更多的保護,因為噪聲分布從零開始擴散,并且越來越多的噪聲被添加到單元格中。 在最極端的情況下,零PLB 將體現(xiàn)為100%的噪聲,而無窮大的 PLB 值將反映完全的準(zhǔn)確性,數(shù)據(jù)不含任何噪音。
隱私損失預(yù)算并不是影響分布形狀的唯一因素。 分布類型(如拉普拉斯分布、幾何分布或高斯分布)也有影響。 在“純”差分隱私中,最常用的統(tǒng)計分布(例如拉普拉斯)允許存在相當(dāng)大的“異常值”——添加的噪聲量異常大(遠(yuǎn)離 0 或 ±1)的地方。
就十年一次的人口普查數(shù)據(jù)而言,機密性問題需要與數(shù)據(jù)的準(zhǔn)確性相平衡,向某些單元格添加大量噪聲可能會損害數(shù)據(jù)的適用性。 為了解決這個問題,美國人口普查局選擇基于不同的統(tǒng)計分布(離散高斯)實施零集中差分隱私(zCDP)框架。 這種轉(zhuǎn)變意味著,對于相同級別的隱私損失預(yù)算,zCDP 注入異常大量噪聲的可能性低于純差分隱私。
對于 2020 年人口普查的數(shù)據(jù)文件,隱私損失預(yù)算的分配如下所示,總的隱私損失預(yù)算 ε = 17.44。
預(yù)算按地理層級劃分,每個層級得到總額的一小部分:國家為 104/4,099; 各州 1,440/4,099; 縣 447/4,099; 687/4,099 單張; 優(yōu)化塊組為 1,256/4,099; 塊為 165/4,099。

以上就是美國人口普查中對差分隱私使用的一個大致介紹,我們可以看到通過改進的處理方法設(shè)計和較高的隱私損失預(yù)算,TDA提供了可靠的隱私保護和足夠的數(shù)據(jù)效用,可以供我們在類似數(shù)據(jù)集開放場景下參考。
參考資料:
Disclosure Avoidance for the 2020 Census:An Introduction - 美國人口普查局
Private Numbers in Public Policy: Census, Differential Privacy, and Redistricting - Aloni Cohen, Moon Duchin, JN Matthews, Bhushan Suwal.