背景問題
位置簽到(check-in)包含位置和語義信息,user在簽到的同時,可能泄漏遠遠超出他們想象的個人信息。
以前研究的不足
utility:可理解為用戶體驗。
以前有量化用戶隱私的,但很少有研究關注用戶體驗utility的損失。
本文貢獻
1. 研究位置簽到背后的user動機,基于此,首次提出預測user動機的機器學習方法;
2. 設計了一個utility loss函數(shù),可作為隱私保護方法設計的一個基礎;
3. 基于Foursquare用戶調查結果,研究了utility和隱私之間的平衡。
原理
在 Foursquare 認真選了 77個用戶參與調研。
定義了四種混淆等級:


將utility分級,1-5,1 為“一點也不”,5為“叵費(完美)”。
調研utility情況:

特別的,簽到目的影響不小,對于2種混淆對應的utility。
基于簽到目的的自動utility預測模型:

特征提?。?/p>
1. 結構化的地點信息:用 Foursquare API;
2. 非結構化的文本描述信息: 用 Python NLP toolkit (NLTK 3.0) 提取低級文本特征,樸素貝葉斯分類器通過低級文本特征提取高級文本特征(i.e. 心情)。
3. 混合類型特征:為提取地點信息和文本信息之間的相關性,計算了最長子字符串和Levenshtein距離。
機器學習推測簽到目的: 得到簽到的特征向量后,用多類(multi-classes)分類器進行分類。經(jīng)過多重分類器實驗,本文選用于本文數(shù)據(jù)集效果最好的隨機森林進行分類。
基于簽到目的的utility模型:
定義? utility u = f(m, o, k)∈ [1, 5];
13種簽到目的 m ∈ {1, . . . , 13};
混淆 o = (os, og),其中?os, og ∈ {1, 2}(1為low,2為high);
k = (k1, . . . , kn) 是地點特征和用戶特征。
首先,使用真實的用戶目的,研究utility、混淆和動機的關系;然后,用上述的推測目的,研究三者關系。以此,驗證自動推測方法的效果。

同時,也將上線性回歸方程與一個非線性模型作對比。(M5P model?tree technique [34], by using the WEKA toolkit).

測試結果,詳情分析略。