在微博上看到 @yanhaijing 的關(guān)于“收集轉(zhuǎn)載文章不添加原文鏈接的網(wǎng)站”的一文,我不禁想忍著這該死的手部神經(jīng)壓迫來寫一篇文章說說我的經(jīng)歷及感受。
本文主要分成四個部分來講博客發(fā)展歷程、聚合網(wǎng)站的危害、與聚合網(wǎng)站斗爭、吐槽聚合網(wǎng)站。
博客的發(fā)展歷程
從我開始寫技術(shù)博客到現(xiàn)在,共計已經(jīng)有639篇博客了,加上此文共計640篇。最開始寫博客的時候是在CSDN上面寫,一是CSDN是最大的中文社區(qū)網(wǎng)站,二是上面會有很多讀者。
在寫了幾十篇后發(fā)現(xiàn),文章開始被轉(zhuǎn)載。這里說的轉(zhuǎn)載是指“帶有原文鏈接”的轉(zhuǎn)載,同時這個鏈接也會被Google、百度、必應(yīng)的爬蟲抓取。然而,在第三方博客上寫文章總會缺少很多關(guān)鍵性的數(shù)據(jù),如流量來源、用戶設(shè)備信息等等。同時在這些網(wǎng)站上也會有對應(yīng)的推薦機(jī)制,而如果我們的文章很難被推薦的話,那么我們的讀者就特別少。
接著,我就開始建立我自己的博客,詳細(xì)可見:《聽我說說我的博客》。后來,發(fā)現(xiàn)這是一個明智的決定。在使用和分析的過程中,我學(xué)到了很多的東西:
- SEO優(yōu)化
- Google Analytics
- 網(wǎng)站性能分析與優(yōu)化
- 等等
同時,也從擴(kuò)展博客的功能上實(shí)踐了一些不錯的新技術(shù),如Angluar、Ionic、HTTP 2.0、微信公眾號集成等等。而隨著流量的增大 ,便遇到越來越多的被“復(fù)制”問題。之所以說是復(fù)制是因?yàn)檫B轉(zhuǎn)載都不配。
作為一個創(chuàng)作者,我不希望自己的作品出現(xiàn)在不喜歡的地方。
聚合網(wǎng)站的危害
當(dāng)我開始意識到我需要與聚合網(wǎng)站作戰(zhàn)的起因是,我的博客在Google中的索引在不斷地下降。如我在《博客反爬蟲 策略一——根據(jù)User Agent》 所看到的索引值一樣在下降。

索引值下降通常不外乎幾個簡單的原因:
- Google修改爬蟲算法
- Google認(rèn)為你作弊了(一些不合法的SEO規(guī)則)
- Google認(rèn)為你的內(nèi)容對用戶無用 (如重復(fù),太短)
- 等等
而我們面對的降合網(wǎng)站應(yīng)該屬于第三種結(jié)果,他們復(fù)制我們的文章,然后Google認(rèn)為我們作弊了?。?!這是什么概念?
別人抄了你的作業(yè),然后老師說你抄襲!
別人抄了你的作業(yè),然后老師說你抄襲!
別人抄了你的作業(yè),然后老師說你抄襲!
長此以遠(yuǎn),你在Google中就看不到你的文章了。當(dāng)時我也遇到了類似的情形,于是我開始反擊。從禁止特爬蟲到限制RSS的長度,也才有了下面的結(jié)果:

但是第二個網(wǎng)站仍然是聚合網(wǎng)站,What's the fuck。對于我來說,這已經(jīng)是很好的結(jié)局,在Google中的第一個結(jié)果是自己的文章。對于必應(yīng)來說也是一個不錯是的結(jié)果,然而下面仍然是一堆的聚合網(wǎng)站:

而這是聚合網(wǎng)站的索引,在百度、360搜索、搜狗等等的搜索引擎就沒有那么好運(yùn)。
與聚合網(wǎng)站斗爭
你辛辛苦苦寫地東西就這樣無情地被盜取了,想想便覺得還是GitHub好,至少可以看到有多少人Fork你的代碼。雖然是不同類似的網(wǎng)站,但是作為一個技術(shù)人員我們總是應(yīng)該做出點(diǎn)什么。
首先,我們要理解為什么他們的排名會比我們高——主要是因?yàn)樗麄兊腞ank高,即他們的網(wǎng)站排名比我們高。畢竟,他們抄襲了那么多的網(wǎng)站,很容易就排到我們前面去了。
他們主要有下面兩種行為:
- 轉(zhuǎn)載不添加鏈接
- 原文鏈接包含rel=nofollow標(biāo)簽 (告訴Google不要前往此鏈接)
而他們轉(zhuǎn)載文章的基本手法也就是:
- RSS轉(zhuǎn)載
- 爬蟲
而對于RSS轉(zhuǎn)載來說,一種很有效的策略就是限定字符的全文輸出,并且在RSS的最后加一個原文鏈接。如下圖所示:

盡管原文鏈接會被加上rel=nofollow,但是有趣的一點(diǎn)出現(xiàn)了。我們的文章是全文輸出,而聚合網(wǎng)站的文章則會變成摘要~~,你懂的。搜索引擎就會知道哪里會有問題。與此同時一種有效的策略就是使用圖片——放在自己網(wǎng)站上的圖片,而這個圖片多數(shù)時候也會被復(fù)制過去。那么勝利的天平將會向你傾斜。
與此同時,還可以在一些Rank更高的網(wǎng)站上粘貼自己的文章,這是我最近在嘗試的。但是這招只對于Google、Bing來說是有效的,對于百度來說,你懂的錢多就行了——從不指望百度可以從SEO中獲取一些好處。并且在這些網(wǎng)站上粘貼上原文鏈接,那么依據(jù)Page Rank就會有下面的結(jié)果:

除此還有防不勝防的爬蟲,不斷地修改自己的Rule?這就會變成一場無止盡的斗爭。
而且我已經(jīng)累了,我想要有更多寫作時間,而不是娛樂時間。
公眾號與吐槽聚合網(wǎng)站
接著,我便開始轉(zhuǎn)身微信公眾號的使用——因?yàn)橛性瓌?chuàng)的功能。盡管這是一條很漫長的路,但是不變則死——雖然變則半死不活。在過去的半年里,我開始使用微信公眾號(搜索Phodal即可)。
而這是一條很漫長的路,但是事物總應(yīng)該要去改變。事情總算是有了一點(diǎn)生機(jī),盡管每篇文章的閱讀量只有幾百,但是足夠了。

見證了過去幾年博客的流量增長,我覺得比以前好多了:

而可以在微信公眾號上使用原創(chuàng)便意味著很多事。過去在國內(nèi)我們用不了Google,多數(shù)人就無力對抗聚合網(wǎng)站?,F(xiàn)在我們又有了一些新的生機(jī),原創(chuàng)就意味著在轉(zhuǎn)載的時候,會導(dǎo)流量。
微信公眾號是一個閉合的原創(chuàng)空間,這意味著我推廣的成本特別大。我也開始嘗試使用今日頭條的公眾號,總的來說最近兩篇文章閱讀量還不錯:

一個可以聚合更多的粉絲,一個可以讓更多的人閱讀。作為一個創(chuàng)作者,何樂而不為呢?
那么,越來越多的人將往這方面發(fā)展,這也意味著Copy的成本在不斷地加大。
你再也不能再隨意Copy了!
我們可以再次自由地創(chuàng)作——作為一個創(chuàng)作者,我不希望自己的作品出現(xiàn)在不喜歡的地方。
盡管對于代碼來說,這并不是一件好事,在上面閱讀代碼不是一件容易的事。而我也開始集中型的在GitHub上寫作,雖然有GitBook這樣的工作,但是GitHub可以演示代碼。