激情人妻99,999色色色

什么是Census

Census是指人口普查，一種用于收集關(guān)于人口、住房、就業(yè)和經(jīng)濟等方面信息的全國性調(diào)查，在美國它是由商務(wù)部下屬的人口普查局（US Census Bureau）負(fù)責(zé)執(zhí)行的。自1790年第一次人口普查以來，美國的Census每隔十年進行一次，已經(jīng)進行了23次，每次普查都收集了海量的數(shù)據(jù)，包括人口、家庭、住房、教育、收入、就業(yè)、種族和民族等各種方面的信息，用于幫助政府和社會各界可以更好地了解國家的人口、社會和經(jīng)濟情況

人口普查局會利用如下方式來進行數(shù)據(jù)采集：

? ? 1) 地圖制作：在Census開始前，人口普查局會制作一張全國地圖，并將其分成小區(qū)，以便確定每個小區(qū)的邊界和人口數(shù)量。這些小區(qū)稱為Census Tracts。

? ? 2) 發(fā)送調(diào)查表：然后人口普查局會向每個家庭郵寄調(diào)查表。調(diào)查表通常包括有關(guān)家庭成員、住房條件、收入、就業(yè)和其他相關(guān)信息的問題。

? ? 3) 進行電話和面訪：如果家庭未能回復(fù)調(diào)查表，人口普查局可能會通過電話或面訪的方式收集數(shù)據(jù)。面訪通常由訓(xùn)練有素的人口普查員進行。

? ? 4) 數(shù)據(jù)收集和整理：人口普查局收集數(shù)據(jù)后，會對其進行整理和處理。這包括檢查數(shù)據(jù)的完整性和準(zhǔn)確性，對數(shù)據(jù)進行分類和編碼，以及將其存儲在計算機系統(tǒng)中。

Census收集的數(shù)據(jù)字段包括人口數(shù)量、年齡、性別、種族和民族、婚姻狀況、家庭結(jié)構(gòu)、教育程度、收入、就業(yè)情況、住房條件、遷移情況等等。這些數(shù)據(jù)對于了解美國的人口、社會和經(jīng)濟狀況非常重要，并被廣泛用于政府政策制定、社會研究和商業(yè)決策等方面。

Census數(shù)據(jù)在美國是公開可用的，人口普查局完成收集和處理后，會將Census數(shù)據(jù)以多種形式發(fā)布。以下是公眾獲取Census數(shù)據(jù)的常見方式，鏈接我就不提供了，有興趣的可以自己搜索：

? ? 1) American FactFinder：這是一個免費的在線工具，允許用戶訪問和下載Census數(shù)據(jù)。用戶可以在該工具中輸入他們感興趣的主題或地理位置，并通過各種方式瀏覽和搜索數(shù)據(jù)。

? ? 2) Census Bureau API：它是免費的Web服務(wù)，允許開發(fā)人員使用API自動化獲取和處理數(shù)據(jù)。

? ? 3) Census Bureau FTP：它允許用戶以ZIP文件的形式下載Census數(shù)據(jù)。用戶可以在該站點上按照地理位置或主題進行瀏覽和下載數(shù)據(jù)。

? ? 4) Census Bureau Data Visualization Gallery：這是一個在線工具，展示了人口普查局發(fā)布的各種數(shù)據(jù)可視化和地圖。用戶可以在該工具中探索和發(fā)現(xiàn)有關(guān)美國人口、社會和經(jīng)濟的各種數(shù)據(jù)。

Census的隱私挑戰(zhàn)

Census項目一方面大規(guī)模收集個人敏感信息，如個人身份、地址、家庭成員、收入等；同時還要公開分享數(shù)據(jù)集支持?jǐn)?shù)據(jù)有效利用，可想而知隱私保護一直都是它最大的挑戰(zhàn)。在過去的幾十年中，人口普查局采用了許多不同的數(shù)據(jù)保護技術(shù)，以確保發(fā)布數(shù)據(jù)的隱私和安全。

? ? 1) 從20世紀(jì)60年代開始，使用數(shù)據(jù)抑制處理有關(guān)個人身份的信息，如姓名和地址，在數(shù)據(jù)發(fā)布時都會被刪除，僅在統(tǒng)計數(shù)據(jù)中保留一些基本信息，用于保護個人隱私。

????2) 在70年代和80年代，開始使用加密/假名化技術(shù)來保護Census數(shù)據(jù)的隱私。該技術(shù)涉及將數(shù)據(jù)轉(zhuǎn)換為一些不可讀的代碼，并需使用密鑰來解密原始數(shù)據(jù)。

????3) 在20世紀(jì)90年代，開始使用數(shù)據(jù)擾動添加噪音的方式來保護個人隱私。例如：將某些家庭的記錄與附近地區(qū)具有相似特征的家庭的記錄交換(Data Swapping)，從而在數(shù)據(jù)中注入“噪音”。該類技術(shù)會在Census數(shù)據(jù)中引入一些隨機誤差，以便個人無法被準(zhǔn)確識別。

2018年，人口普查局基于2010年普查發(fā)布的公開數(shù)據(jù)做了一次模擬數(shù)據(jù)重建攻擊實驗。他們首先重建出3.08億人的基本信息(居住區(qū)域、性別、年齡，種族和民族)。然后將這些重建后的記錄拿來和外部可購買到的商業(yè)數(shù)據(jù)庫中的個人信息進行匹配，找到了1.38億個匹配結(jié)果，并最終正確地重識別出5200萬個自然人，占到了美國總?cè)丝诘?7%。這個結(jié)果是讓人震驚的，它代表著即使人口普查局應(yīng)用了各種技術(shù)手段來保護隱私，還是有近兩成的個人信息可能被完全泄漏。

所以在2020年的人口普查中，普查局決定引入一種基于差分隱私的數(shù)據(jù)避免披露框架。

差分隱私在Census的應(yīng)用

差分隱私的目標(biāo)是掩蓋個人信息在某個數(shù)據(jù)集中的存在或不存在，但同時又保證數(shù)據(jù)集在統(tǒng)計層面的有效性。差分隱私還有一個重要優(yōu)勢是它可以量化披露風(fēng)險的級別。

圖1-差分隱私示意圖

差分隱私的原理和實現(xiàn)邏輯我們在本文中不進行詳細(xì)介紹，可查看這里的擴展閱讀。它作為一個框架，能實現(xiàn)無論數(shù)據(jù)集中是否包含某個特定自然人，它的任何數(shù)據(jù)分析的結(jié)果幾乎都是相同的，從而實現(xiàn)對自然人機密信息的保護。

與人口普查局之前使用的數(shù)據(jù)保護方法相比，差分隱私具有一些明顯的優(yōu)勢：

????1) 差分隱私允許人口普查局對發(fā)布的數(shù)據(jù)集進行跟蹤和解決潛在的隱私損失。

? ? 2) 差分隱私處理后的數(shù)據(jù)可以發(fā)布、分析并鏈接到其他數(shù)據(jù)，而不會增加任何泄露風(fēng)險；一旦數(shù)據(jù)被處理，無論數(shù)據(jù)如何使用，都不會再有隱私損失。

????3) 差分隱私提供數(shù)學(xué)上可證明的隱私保證以防止?jié)撛陔[私攻擊。

? ? 4) 差分隱私是透明的，不同于之前的數(shù)據(jù)保護方法，如數(shù)據(jù)交換。差分隱私的編程代碼和決策對公眾開放；唯一未公布的信息是添加到給定數(shù)據(jù)點的噪聲的確切值。

人口普查局在2020使用的數(shù)據(jù)保護方法有兩個部分：差分隱私算法和后處理，差分隱私算法給數(shù)據(jù)增加了噪聲，而后處理增強一致性。兩者被整合到一個稱為自上而下算法??(TDA-TopDown Algorism)??的框架內(nèi)。

1-數(shù)據(jù)準(zhǔn)備

首先人口普查局為 2020 年人口普查重新分配數(shù)據(jù)文件編制了一份交叉表，該表反映了每個地理層級（從國家層面到州，再到最低層級的人口普查區(qū)）的所有變量。在已發(fā)布的重新劃分?jǐn)?shù)據(jù)文件中，人口特征有 252 種可能的種族、民族和年齡組合（63 x 2 x 2 = 252）。住房特征包含了八種居住類型（住房單元加七種集體宿舍類型）和兩種居住狀態(tài)類別，構(gòu)成每個地理單元的有262（252 + 8 + 2）個不同的已發(fā)布數(shù)據(jù)類型。

表 1 - 數(shù)據(jù)分類

為了生成這些已發(fā)布的數(shù)據(jù)，TDA 使用了一個更詳細(xì)的交叉表，將 252 個種族、族裔和年齡類別與八個居住類別（住在一個住房單元和七個集體宿舍類型）相結(jié)合，得到 2,016（252 x 8) 每個地理單元的不同數(shù)據(jù)元素。

2-添加噪音

2020 年人口普查中大約有 800 萬個人口普查區(qū)(block)——這是最小地理區(qū)域。每個區(qū)都有 2,016 個數(shù)據(jù)元素，這意味著 TDA 中的人有超過 160 億個數(shù)據(jù)單元。為每個數(shù)據(jù)單元提供高度準(zhǔn)確的信息會帶來隱私泄漏風(fēng)險；因此，添加了噪音以保護個體受訪者的數(shù)據(jù)機密性。向數(shù)據(jù)添加噪聲意味著對于任何給定的數(shù)據(jù)統(tǒng)計值，TDA 可能會在計數(shù)中添加或減去少量數(shù)據(jù)以掩蓋原始值。

引入的噪音水平由“隱私損失預(yù)算”控制——該預(yù)算定義了可能發(fā)生的隱私損失的絕對上限。隱私損失預(yù)算可以設(shè)置得更高或更低，隨著隱私損失預(yù)算的增加，噪聲減少（抽取的隨機噪聲數(shù)中有更大可能性為零或接近于零），這意味著數(shù)據(jù)將更加準(zhǔn)確，但攻擊者重建數(shù)據(jù)用于重新識別自然人的可能性也上升。

這種隱私損失預(yù)算可以設(shè)置在從“無準(zhǔn)確性但高保護”到“高精度但無保護”范圍內(nèi)的任何位置。選擇隱私損失預(yù)算是一項基于準(zhǔn)確性和保密性之間平衡的決策，它必須同時考慮到人口普查局的法律義務(wù)和數(shù)據(jù)使用者對數(shù)據(jù)效用的需求。預(yù)算越低，保護越高，每個數(shù)據(jù)點的精確度就越低。同時，總的隱私損失預(yù)算必須在人口特征、住房特征和地理級別之間進行分配。

整體隱私損失預(yù)算必須分配給所有已發(fā)布的人口普查產(chǎn)品（表格和微數(shù)據(jù)）。花費一些預(yù)算來提高數(shù)據(jù)的某個維度的準(zhǔn)確性（例如更準(zhǔn)確的街區(qū)總?cè)丝谟嫈?shù)）可能意味著在另一個維度（例如種族細(xì)節(jié)）的準(zhǔn)確性上有更少的預(yù)算。

如上所示的表單中演示了如何將噪音添加到一個由5個人口普查區(qū)組成的數(shù)據(jù)表。這里展示的是第一步，將噪音獨立添加到各個單元格中。在TDA中，添加到任意單元格的噪音都是隨機抽取的，與該單元格所代表的人口規(guī)模沒有關(guān)系。也就是說兩個分別有十萬人和一千人的人口調(diào)查區(qū)，統(tǒng)計數(shù)值增加5的可能性是相同的，這代表著絕對誤差相同。所以有著較少人口數(shù)的調(diào)查區(qū)會有更高的相對誤差，這有利于降低小群體的重識別風(fēng)險。同時，我們?yōu)槊總€單元格的每個特征獨立添加了噪聲，這將導(dǎo)致邏輯上的不一致。比如總?cè)丝跀?shù)和分項統(tǒng)計的人口總數(shù)不一致。

在實際的噪音生成過程中，人口普查局是通過地理層級嵌套(國家—州—縣—tract區(qū)—街區(qū)—block人口普查區(qū))的方式來進行的。TDA使用差分隱私機制先在國家層級創(chuàng)建一個新的注入噪聲的數(shù)據(jù)集，然后再對州這個級別重復(fù)該過程，同時利用優(yōu)化程序確保人口和住房特征的在各個分類的總數(shù)和先前國家層面的統(tǒng)計數(shù)據(jù)一致。這個過程持續(xù)重復(fù)到最低一個層級 - 人口普查區(qū)。

3-后處理

差分隱私的噪聲注入提供了可量化和可證明的隱私保證，這個保證反映為全局隱私損失預(yù)算及其在每個統(tǒng)計數(shù)值上的分配。它也可以被看作是對自然人的一個承諾，即攻擊者通過重識別帶來的風(fēng)險是有一個上限值的。

因為一些特殊國情，TDA部分背離了傳統(tǒng)的差分隱私框架，它的數(shù)據(jù)中包含了某些不變量—即不會添加任何噪音的特征數(shù)據(jù)。比如：

? ? 1）每個州的總?cè)藬?shù)(它會被用于重新分配美國眾議院在各州的席位數(shù)量)；

????2）每個人口普查區(qū)的住房單元總數(shù)；

? ? 3）每個人口普查區(qū)中被占用的團體宿舍設(shè)施數(shù)量(大學(xué)，護理機構(gòu)，軍營，懲教設(shè)施等)；

不變量的使用會削弱差分隱私的保護強度，這里我們不做展開討論。

除此之外，TDA還有一些預(yù)定義的全局約束，用于解決數(shù)據(jù)的不一致問題，它們適用于所有的地理層級：

? ? 1）人口和住房數(shù)量必須為整數(shù)且不得為負(fù)數(shù)。

? ? 2）表格中各單元格的值相加應(yīng)該等于單項統(tǒng)計總數(shù)，而行或者列的總數(shù)統(tǒng)計應(yīng)等于表格中的總?cè)藬?shù)。

????3）對于指定的統(tǒng)計范圍，計數(shù)值應(yīng)該在同一表內(nèi)以及不同表之間保持一致。例如，按種族劃分的人口總和必須等于總?cè)丝?，已占用和空置住房單元的?shù)量總和必須等于住房單元總數(shù)，州內(nèi)每個縣的人口總和必須等于該州的總?cè)丝?.

? ? 4）如果某個地理區(qū)域中的住宅和集體宿舍 (GQ) 設(shè)施為零，則不得向該地理區(qū)域分配人員。

? ? 5）每個 GQ 設(shè)施的人數(shù)大于或等于 1。

? ? 6）每個住宅或集體宿舍的人數(shù)小于或等于99,999。

基于如上條件，TDA會對數(shù)據(jù)進行后處理，以滿足規(guī)范。

上表是基于數(shù)據(jù)后處理的一個實際例子。首先，第四區(qū)中成年人人數(shù)的 –1 被調(diào)整為非負(fù)數(shù)。然后是一些不一致的問題，例如原來第五區(qū)總?cè)藬?shù)小于成年人人數(shù)的問題也得到了解決。最后調(diào)整噪聲特征以匹配所有相關(guān)地理區(qū)域的總噪聲人口。在此示例中，初始噪聲塊總數(shù)總和為 257，但必須調(diào)整為 254。

4-未解決的數(shù)據(jù)問題

后處理步驟可能會引入偏差，例如在刪除負(fù)值或?qū)Y(jié)果數(shù)據(jù)施加其他約束時。 TDA中這個框架的一個關(guān)鍵特征是統(tǒng)計數(shù)據(jù)的準(zhǔn)確性和可靠性會隨著被測量的基礎(chǔ)人口的增加而增加。因為它使用所謂的多通道后處理(multi-pass postprocessing)。首先處理國家層面的數(shù)據(jù)，然后是州層面，一層層往下。每層處理時會首先求解該地理層面內(nèi)每個單位的人口數(shù)量(例如，州內(nèi)每個縣的人口或縣內(nèi)每個人口普查區(qū)的人口)，接下來，該算法基于確定的人口總數(shù)來求解其他特征的各類統(tǒng)計數(shù)據(jù)。

當(dāng)然噪聲注入不可避免的會在發(fā)布的數(shù)據(jù)集中產(chǎn)生一些違反常識的結(jié)果。例如：

????? 一個街區(qū)只有一個住宅但有幾十個人。

????? 一個街區(qū)有18 歲以下的兒童居住，但沒有成年人。

????? 一個街區(qū)有人居住，但所有住宅都顯示為空置。

這些不合理的統(tǒng)計結(jié)果通常發(fā)生在人口數(shù)較少的統(tǒng)計層級中。數(shù)據(jù)用戶會發(fā)現(xiàn)，隨著數(shù)據(jù)聚集到更大的地理區(qū)域，這類結(jié)果出現(xiàn)的頻率會降低，而估計的準(zhǔn)確性會提高。這個問題目前并沒有好的方法來避免，因此人口普查局的建議對于許多用例，例如詳細(xì)的住房或家庭人口分析，最低層級的數(shù)據(jù)可能噪音太大，希望數(shù)據(jù)用戶將數(shù)據(jù)組合到人口較多的地理區(qū)域，這樣可以減少差分隱私噪音對數(shù)據(jù)統(tǒng)計結(jié)果的正確性干擾。

5-隱私預(yù)算值

為了達(dá)到特定的隱私保護級別，隱私損失預(yù)算(PLB)可以象表盤一樣調(diào)整，它會影響的隨機噪聲的范圍分布。更高的 PLB 值意味著更高的數(shù)據(jù)準(zhǔn)確性和更少的私密性。隨著 PLB（ε - epsilon）上升，添加到任何給定單元格的噪聲越來越有可能為零。而較低的 PLB 值意味著較低的準(zhǔn)確性以及更多的保護，因為噪聲分布從零開始擴散，并且越來越多的噪聲被添加到單元格中。在最極端的情況下，零PLB 將體現(xiàn)為100%的噪聲，而無窮大的 PLB 值將反映完全的準(zhǔn)確性，數(shù)據(jù)不含任何噪音。

隱私損失預(yù)算并不是影響分布形狀的唯一因素。分布類型（如拉普拉斯分布、幾何分布或高斯分布）也有影響。在“純”差分隱私中，最常用的統(tǒng)計分布（例如拉普拉斯）允許存在相當(dāng)大的“異常值”——添加的噪聲量異常大（遠(yuǎn)離 0 或 ±1）的地方。

就十年一次的人口普查數(shù)據(jù)而言，機密性問題需要與數(shù)據(jù)的準(zhǔn)確性相平衡，向某些單元格添加大量噪聲可能會損害數(shù)據(jù)的適用性。為了解決這個問題，美國人口普查局選擇基于不同的統(tǒng)計分布（離散高斯）實施零集中差分隱私（zCDP）框架。這種轉(zhuǎn)變意味著，對于相同級別的隱私損失預(yù)算，zCDP 注入異常大量噪聲的可能性低于純差分隱私。

對于 2020 年人口普查的數(shù)據(jù)文件，隱私損失預(yù)算的分配如下所示，總的隱私損失預(yù)算 ε = 17.44。

預(yù)算按地理層級劃分，每個層級得到總額的一小部分：國家為 104/4,099；各州 1,440/4,099；縣 447/4,099； 687/4,099 單張；優(yōu)化塊組為 1,256/4,099；塊為 165/4,099。

圖2 - 隱私預(yù)算分布情況

以上就是美國人口普查中對差分隱私使用的一個大致介紹，我們可以看到通過改進的處理方法設(shè)計和較高的隱私損失預(yù)算，TDA提供了可靠的隱私保護和足夠的數(shù)據(jù)效用，可以供我們在類似數(shù)據(jù)集開放場景下參考。

參考資料：

Disclosure Avoidance for the 2020 Census:An Introduction - 美國人口普查局

Private Numbers in Public Policy: Census, Differential Privacy, and Redistricting - Aloni Cohen, Moon Duchin, JN Matthews, Bhushan Suwal.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

差分隱私在美國人口普查數(shù)據(jù)中的使用

差分隱私在美國人口普查數(shù)據(jù)中的使用

什么是Census

Census的隱私挑戰(zhàn)

差分隱私在Census的應(yīng)用

1-數(shù)據(jù)準(zhǔn)備

2-添加噪音

3-后處理

4-未解決的數(shù)據(jù)問題

5-隱私預(yù)算值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

差分隱私在美國人口普查數(shù)據(jù)中的使用

什么是Census

Census的隱私挑戰(zhàn)

差分隱私在Census的應(yīng)用

1-數(shù)據(jù)準(zhǔn)備

2-添加噪音

3-后處理

4-未解決的數(shù)據(jù)問題

5-隱私預(yù)算值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av