今日頭條出事了,相關(guān)負責(zé)人表示,將嚴格落實網(wǎng)信部門管理要求,對相關(guān)問題進行自查自糾,分別對違規(guī)問題嚴重的部分頻道暫停內(nèi)容更新。今日頭條手機客戶端“推薦”“熱點”“社會”“圖片”“問答”“財經(jīng)”等6個頻道自2017年12月29日18時至12月30日18時暫停更新24小時。
這兩天,有一篇文章似乎在為今日頭條打抱不平《AI 算法起家的今日頭條為何敗給了色情?》文章稱曾經(jīng)靠 AI 雄霸天下的今日頭條,如今也因 AI 的不足,敗給了色情。文章指出一些圖片會被AI誤認為是色情圖片。
其實,小編對這種說法持懷疑態(tài)度。
1. 在追逐流量下對低俗內(nèi)容的放縱,不只今日頭條,眾多的互聯(lián)網(wǎng)自媒體平臺、直播平臺都不同程度存在,甚至已經(jīng)成為潛規(guī)則。
2. 如果因為誤殺的原因,調(diào)大閾值即可,寧可錯殺,也不可能會這么多色情消息。
3. 今日頭條都沒有做任何澄清,如果使用鑒黃策略,究竟是哪一家的?
圖片鑒黃哪家強?
中國山東找藍翔!
認真點,小編不懂鑒黃的算法,更沒有足夠的數(shù)據(jù)集去訓(xùn)練模型。如果哪位同學(xué)覺得自己有足夠的數(shù)據(jù)集的話,我們可以私下探討下算法~
好了,我們選取4家知名企業(yè),同時開放公共API的。雅虎,clarifai,阿里和騰訊的鑒黃服務(wù)進行了一次測試。
要測試不同公司鑒黃技術(shù)的好壞,首先要選擇一個客觀的測試集,就像考試需要有考卷一樣。 由于敏感性,網(wǎng)上很少有公開的色情圖片數(shù)據(jù)集。通過檢索筆者找到了一個名為NPDI的色情圖片測試集,NPDI色情圖片集是巴西一所大學(xué)的一個小組發(fā)布的,他們收集了80個小時的視頻,包括400段正常的視頻,200段比較容易混淆的正常視頻和200段色情視頻,并且通過截幀獲取到1萬6千張圖片,其中色情圖片6000多張,非色情10000多張。其中一部分圖片如下圖所示。

評價指標也要明確一下,這里筆者采用了固定誤判率(FAR)下的識別率(TAR)來測試結(jié)果進行評價,其中誤判率為非色情圖片中被誤判為色情圖片的比例,?識別率為色情圖片中被正確識別的比例。例如對于一個包含100張非色情圖片和100張色情圖片的測試集,有10張非色情圖片被模型誤判為了色情圖片,同時有90張色情圖片被正確識別,那么這個模型的誤判率就是10%,?識別率為90%。
最終測試結(jié)果如下:
Clarifai ?64.80%
Yahoo ?65.42%
阿里 ? ?69.86%
騰訊 ? ?75.90%
看測試結(jié)果,騰訊萬象優(yōu)圖效果最好(名字也取得好)。但是結(jié)果都及格了,更加讓小編懷疑,今日頭條要么就是自己的算法太懶。。要么就是故意的。我更傾向后者~
文章來源我的公眾號: