10月25日,維權(quán)騎士發(fā)步了2017年Q3內(nèi)容行業(yè)版權(quán)報(bào)告,包括微信公眾號(hào),百家號(hào),頭條號(hào),豆瓣等主流平臺(tái)。同時(shí)一些人對(duì)此報(bào)告發(fā)表了嘲諷,稱微博、QQ空間等平臺(tái)由于侵權(quán)數(shù)據(jù)太大,會(huì)導(dǎo)致維權(quán)騎士服務(wù)器癱瘓,所以沒被詳細(xì)列出來。
看到這種沒搞清楚事情因果關(guān)系的評(píng)論,我在辦公室里當(dāng)時(shí)就笑出了聲。

在談微博和空間為何榜上無名之前,我們首先要搞清楚維權(quán)騎士對(duì)侵權(quán)的定義(算法上的),也就是在檢查一篇文章是否侵權(quán)的時(shí)候究竟檢查的是哪一部分算侵權(quán)。
一篇文章的內(nèi)容分文字和圖片兩塊。
在檢查是否構(gòu)成侵權(quán)時(shí),我們讓機(jī)器檢查,也只能檢查的是文字內(nèi)容。為什么是文字內(nèi)容呢,因?yàn)樽址诰幋a表中的編號(hào)是唯一的,即使使用了不同的編碼表,如Unicode、GB18030、BIG5、UTF-8……只要比對(duì)編碼表,就可以輕松的知道雙方的文字內(nèi)容是否一樣。
對(duì)于圖片檢查的困難主要源于2個(gè)方面:
一是識(shí)圖算法上的難度。利用圖片的編碼來檢索是不現(xiàn)實(shí)的,原因如下:
首先圖片沒有統(tǒng)一的壓縮算法,JPG要是世界第一好用的格式,那怎么會(huì)有人搞個(gè)PNG出來呢?GIF第一個(gè)不服啊,我能播動(dòng)圖,你JPG能嗎?EPS也要會(huì)會(huì)你這JPG印出來究竟清晰不清晰。
其次圖片有分辨率一說,1M的原圖和100K的截圖肉眼看著區(qū)別不大,數(shù)據(jù)上可不是簡(jiǎn)單的1/10。除非是一模一樣的兩張圖,更不用說兩張不同格式的圖片了。
所以目前無論是百度、淘寶以及其他主流識(shí)圖的算法都是根據(jù)色塊來檢索的,那么即使在文章中使用的是原創(chuàng)圖片,放到搜索引擎中的結(jié)果除了原圖之外還會(huì)有其他顏色相近,但實(shí)際上不相干的圖。
大家都不想寫文章配了張風(fēng)景,結(jié)果提示你“您的圖片與以下圖片有74%的相似度,可能構(gòu)成抄襲”吧。
二是對(duì)于盜圖的界定。機(jī)器如何識(shí)別我文章里這張圖只是一張配圖,還是我這篇文章就是為了展示我的圖片作品?
我引用了別人的圖片,文章相似度又應(yīng)該怎么算,圖片和文字的權(quán)重是怎樣設(shè)定的?
如果不能引用圖片,那我寫的這個(gè)回答也“抄襲”了題主的截圖。
盜圖這事兒連阿里都得靠人工舉報(bào),維權(quán)騎士要是實(shí)現(xiàn)了這個(gè)功能,那生意可就不局限于維權(quán)領(lǐng)域了。
微博和空間沒有上榜的原因是多方面的。我們先看一下微博和空間大V抄襲的模式是怎么樣的↓↓↓

為什么大家說微博官方爛泥扶不上墻?說的無非就是新浪一不嚴(yán)打抄襲,二不配合檢查。
這就涉及到一個(gè)問題:我們?yōu)槭裁窗l(fā)微博?
看一下微博的啟動(dòng)頁↓↓↓

我們發(fā)微博的初衷不就是:唉,我覺得這事兒好好玩/mmp,發(fā)出來跟大家分享一下。
簡(jiǎn)而言之,微博官方對(duì)于內(nèi)容原創(chuàng)性是沒有要求的。
像上面截圖的知乎醬,人家的邏輯就是:我也沒說這是我回答的,我就是刷知乎看到好玩的回答來分享一下。侵權(quán)?不好意思,你都發(fā)現(xiàn)了那我刪了吧。付費(fèi)是永遠(yuǎn)不可能付費(fèi)轉(zhuǎn)載的。
還有大量公眾性的東西,比如天氣預(yù)報(bào),比如新聞,這些東西混在一起,這就有了上面說的對(duì)于抄襲界定的問題。
除了界定的問題,抄襲形式也是一個(gè)重要的原因。
微博和空間的抄襲形式大部分都是截圖啊!
要從圖片中將抄襲的內(nèi)容糾出來,就需要借助OCR技術(shù)。和OCR比起來,文本檢查真的就只是簡(jiǎn)單的匹配識(shí)別。
別忘了在此之前還得把帶文章的圖片和普通圖片區(qū)分開來。
對(duì)于反查重我想,道高一尺魔高一丈。洗稿現(xiàn)在都查不出來,我弄點(diǎn)花式背景,萌萌噠的字體,還不是易如反掌?完全不會(huì)影響人類閱讀,但是就讓你機(jī)器的識(shí)別正確率下去了。連識(shí)別的字都不正確,又談何鑒定抄襲?
這種浪費(fèi)算力的事,等量子計(jì)算真正進(jìn)入商用領(lǐng)域或許可以考慮一下?
至于檢測(cè)內(nèi)容的來源,有兩種獲取方法:
1.和主流平臺(tái)合作,獲取官方數(shù)據(jù),內(nèi)容的提供交給別人來做,這樣比較節(jié)約自家服務(wù)器的性能。
2.就是自己到處爬,但是會(huì)受到爬蟲協(xié)議的制約,比如說↓↓↓

淘寶頭條100%原創(chuàng)我是不信的。
新浪微博不提供自己平臺(tái)內(nèi)容的原因不是很明顯嗎,如果重復(fù)的算抄襲不讓發(fā),還有什么人氣?這是讓微博死??!