Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解與總結

背景問題

位置簽到(check-in)包含位置和語義信息,user在簽到的同時,可能泄漏遠遠超出他們想象的個人信息。

以前研究的不足

utility:可理解為用戶體驗。

以前有量化用戶隱私的,但很少有研究關注用戶體驗utility的損失。

本文貢獻

1. 研究位置簽到背后的user動機,基于此,首次提出預測user動機的機器學習方法;

2. 設計了一個utility loss函數(shù),可作為隱私保護方法設計的一個基礎;

3. 基于Foursquare用戶調查結果,研究了utility和隱私之間的平衡。

原理

在 Foursquare 認真選了 77個用戶參與調研。

定義了四種混淆等級:


用戶簽到的動機占比

將utility分級,1-5,1 為“一點也不”,5為“叵費(完美)”。

調研utility情況:

不同混淆級別的utility值

特別的,簽到目的影響不小,對于2種混淆對應的utility。

基于簽到目的的自動utility預測模型:

工作流程

特征提?。?/p>

1. 結構化的地點信息:用 Foursquare API;

2. 非結構化的文本描述信息: 用 Python NLP toolkit (NLTK 3.0) 提取低級文本特征,樸素貝葉斯分類器通過低級文本特征提取高級文本特征(i.e. 心情)。

3. 混合類型特征:為提取地點信息和文本信息之間的相關性,計算了最長子字符串和Levenshtein距離。

機器學習推測簽到目的: 得到簽到的特征向量后,用多類(multi-classes)分類器進行分類。經(jīng)過多重分類器實驗,本文選用于本文數(shù)據(jù)集效果最好的隨機森林進行分類。

基于簽到目的的utility模型:

定義? utility u = f(m, o, k)∈ [1, 5];

13種簽到目的 m ∈ {1, . . . , 13};

混淆 o = (os, og),其中?os, og ∈ {1, 2}(1為low,2為high);

k = (k1, . . . , kn) 是地點特征和用戶特征。

首先,使用真實的用戶目的,研究utility、混淆和動機的關系;然后,用上述的推測目的,研究三者關系。以此,驗證自動推測方法的效果。

utility的線性回歸方程

同時,也將上線性回歸方程與一個非線性模型作對比。(M5P model?tree technique [34], by using the WEKA toolkit).

可被混淆的比例,橫軸為utility值

測試結果,詳情分析略。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容