個保法對匿名化的定義是 “是指個人信息經(jīng)過處理無法識別特定自然人且不能復原的過程”。 與此同時,GDPR將匿名數(shù)據(jù)定義為“與已識別或可識別的自然人的個人數(shù)據(jù)無關(guān)的數(shù)據(jù)”,即數(shù)據(jù)主體“不可識別或不再可識別”。 也就是說它們要求個人數(shù)據(jù)在處理后要實現(xiàn)了完全的不可重識別,才能算是非個人數(shù)據(jù)。通過上一篇文章,我們知道這樣的匿名化是一種基本上無法實現(xiàn)的理想狀態(tài),沒有落地的可能性。
而世界另一端的美國因為鼓勵數(shù)據(jù)流通走了一條不同的路線,我們今天介紹美國隱私法案中數(shù)據(jù)匿名化的要求。
一、CCPA
加州消費者隱私法案(CCPA)中規(guī)定了去標識化的數(shù)據(jù)就不再屬于個人信息,而不是國內(nèi)的個保法及歐洲的GDPR要求的匿名化。
CCPA中對去標識化的要求,比個保法要更多,它的定義中明確約定
去標識化是指信息無法在合理地被直接或間接的被識別/關(guān)聯(lián)到某個具體的消費者,同時使用去標識化數(shù)據(jù)的組織
1)實施了技術(shù)措施來禁止去標識化數(shù)據(jù)的再識別;
2)實施了業(yè)務流程來禁止去標識化數(shù)據(jù)的再識別;
3)實施了業(yè)務流程阻止去標識化數(shù)據(jù)的疏忽泄漏;
4)不嘗試重新識別去標識化數(shù)據(jù)
所以,它包含了去標識化這樣的數(shù)據(jù)處理過程,也要求有足夠的手段來防止數(shù)據(jù)再識別(等同于個保法中的“復原”,意指重新連接上或轉(zhuǎn)化出個人身份識別符)。第一點的技術(shù)措施應該是指可復原的難度,比如用了2048位的加密算法,暴力破解可行性低。第二和第三點可以通過與合作伙伴的商務合同條款來進行約定,不允許對方進行再識別及大規(guī)模披露。第四點更像是主觀意愿,應該通過SOP及內(nèi)部培訓來規(guī)范。
二、HIPAA
在美國的國家層面的健康醫(yī)療安全法案(HIPAA)中,對數(shù)據(jù)去標識化的定義和要求也是類似的。 它明確約定了數(shù)據(jù)在去標識化后,不再被認為是需要被保護的醫(yī)療信息(PHI-Protected Health Information),不再受HIPAA中隱私條款的約束。

它提供了兩種方式: 專家確認法和安全港
?1. 專家確認法
通過雇傭相關(guān)專家,對數(shù)據(jù)進行處理,并能證明合理性。
1-專家需在使用統(tǒng)計學或其他科學方法處理數(shù)據(jù)方面,有足夠的知識和經(jīng)驗。
2-專家通過應用數(shù)據(jù)處理方法,確定處理后的信息被單獨或結(jié)合其他信息識別出特定個人的風險非常小
3-組織記錄這些方法和結(jié)果,并證明其合理性
那如何選擇專家?HIPAA沒有特定的認證計劃來制定誰是合格的專家,相關(guān)的專業(yè)知識應該是通過教育和工作獲取,這類專家可以從統(tǒng)計,數(shù)學或其他科學領(lǐng)域。從執(zhí)法角度設計,審計辦公室將審查組織所使用的專家的專業(yè)經(jīng)驗和學習背景,以及使用PHI去標識化方法的經(jīng)驗。
2. 安全港
安全港的要求是刪除明確規(guī)定的如下18類個人識別符,且組織認為剩余信息無法用來識別出該信息對應的個人。
1-Names — 姓名
2-All geographic subdivisions smaller than a state — 精確到州以下級別的地址信息
3-Any dates (except year) directly related to an individual — 可直接關(guān)聯(lián)個人的日期數(shù)據(jù)(精確到年以下)
4-All dates including the year for those over the age of 89 - 可關(guān)聯(lián)到89歲以上人群的日期數(shù)據(jù)(包括只到具體某一年)
5-Telephone numbers — 電話
6-Vehicle serial numbers and identifiers — 車牌號
7-Fax numbers - 傳真
8-Device serial numbers and identifiers — 設備號
9-Email addresses - 郵箱地址
10-Universal resource locators (URLs)?
11-Social security numbers — 身份證號?
12-Internet Protocol (IP) address — IP
13-Medical record numbers — 醫(yī)療紀錄編號
14-Biometric identifiers including voice and fingerprints — 生物識別符,包括指紋和聲紋
15-Health plan beneficiary numbers — 醫(yī)療計劃編號/社??ㄌ?/p>
16-Full-face pictures or images - 人臉照片
17-Account numbers — 銀行賬號
18-Certificate or license numbers — 證書編號
我們可以用這個列表做一個參考,來判斷在實際操作中哪類數(shù)據(jù)字段是要執(zhí)行去標識化的。第一種是敏感的個人生物信息,指紋/聲紋/人臉,這一類高風險的敏感信息在任何場景下,都要考慮第一時間進行加密或去標識化。 第二種是強識別符,也就是在各類系統(tǒng)中的唯一編號,社保號是醫(yī)療系統(tǒng)的編號,電話號碼和手機設備號是通信系統(tǒng)的唯一編號等。第三類是弱識別符,包括姓名,IP,地址等。針對日期數(shù)據(jù),可以不做刪除,而是進行泛化,把精度保留到年這一個級別。
最后做一個總結(jié):
為了促進數(shù)據(jù)的流通,美國的隱私法規(guī)認為去標識化的數(shù)據(jù)不再是受保護個人數(shù)據(jù),并給了操作指引,便于落地實施。為了防止去標識化后數(shù)據(jù)的復原,法規(guī)要求同時有技術(shù)措施和業(yè)務流程進行保障。