百度公告稱,4月21日起,百度空間將停止編撰更新博文,博文內(nèi)容遷移后只對自己可見,百度空間內(nèi)容將于2015年5月7日正式遷移到百度云,博文內(nèi)容(包括字體格式、原文、圖片以及視頻鏈接)不變;博文評論、標(biāo)簽、私信、瀏覽轉(zhuǎn)載及原粉絲數(shù)擦除。
隨著百度空間宣布關(guān)閉后,當(dāng)天下午微博上罵聲一片,運(yùn)營八年的百度空間內(nèi)容將于5月7日正式遷移到百度云,簡單的說就是百度空間倒閉了。
我在 13 年初的時(shí)候也有過使用百度空間作為博客內(nèi)容的經(jīng)歷,在使用的過程中已經(jīng)逐漸感受到各種令我不爽的地方,例如發(fā)表的文章經(jīng)常會莫名其妙的被關(guān)閉僅自己可見,原因好像是因?yàn)槲恼轮谐霈F(xiàn)的黑客、入侵、漏洞等敏感關(guān)鍵字,但黑哥的文章卻未被“查封”,可能錯別字大法發(fā)揮了作用。
雖然越做越爛,但倒閉這個消息仍令我和幾個朋友比較郁悶,其中一大原因是由于國內(nèi)安全圈寫文章的很多托管在百度空間,tombkeeper 在當(dāng)天也發(fā)表了八卦緣由:“我比較早開始使用百度空間。在我的忽悠下,國內(nèi)安全界很多人都在百度空間開設(shè)了自己的 Blog。同時(shí),我也是改版后比較早停止使用的人。后來聽說主持改版的 PM 弄完這事兒后就離開了。我寫了首詩:輕輕的他走了,正如他輕輕的來。他輕輕的開會, 搞爛本來挺好的產(chǎn)品。給接任者,留下,一個,爛攤子?!?/p>
關(guān)于寫作與博客我經(jīng)歷了這樣幾個階段,開始剛寫文章時(shí)覺得很有趣,新鮮感十足,抱著憧憬選擇免費(fèi)博客提供商(已經(jīng)被墻),輕松的開始了“寫作”之旅。但在使用的過程中發(fā)現(xiàn)免費(fèi)博客(例如新浪、網(wǎng)易等)限制太多,不能任性的修改 CSS ,添加 JS 等,于是便轉(zhuǎn)身購買了主機(jī)域名搭配 WordPress 做起了個人博主。這個時(shí)間周期比較長,幾年后又覺得 WP 太臃腫,單純的寫作似乎不需要如此花哨的配合,便在能保留控制權(quán)限的前提下,讓別人托管,自己只負(fù)責(zé)寫文章。這就是我現(xiàn)在所使用的 Github pages + Jekyll 模式,詳情搭建過程可以參考我的博文《Github pages + Jekyll build a blog》。
百度空間倒閉了,又會有不少人踏上新的征途,但我并不希望從此那么多優(yōu)秀的文章在互聯(lián)網(wǎng)上消失,我能夠體會到歷經(jīng)幾年撰寫的文章只因?yàn)樘峁┥膛苈肪蜔o法與他人分享,分享是值得尊敬的。每篇文章背后都是作者坐在熒光屏前深思熟慮敲打出來的,所以我經(jīng)常會對優(yōu)秀的文章進(jìn)行“打賞”,至少夠人家買個雞蛋核桃補(bǔ)補(bǔ)腦。面對文章消失的問題,我在下午茶時(shí)間裸寫了百度空間爬蟲從而對我比較敬重的幾個博客內(nèi)容進(jìn)行存檔。
簡單提一下實(shí)現(xiàn)過程:
爬取存檔頁面:百度空間-讓世界發(fā)現(xiàn)你{author}/archive ;
獲取所有發(fā)表過文章的年月份;
爬取發(fā)表過文章月份中的博文鏈接;
多線程進(jìn)行 Wget 操作,下載到本地;
因?yàn)槭禽p量級爬蟲,所以沒有使用 BS 等多余的第三方庫,效果如下:

腳本開源在 Github :https://gist.github.com/Evi1m0/a3cc41690c69bce02ed3
最后無論怎樣,至少我們還能留下那些年的印跡和那點(diǎn)兒依稀的回憶。