豆瓣跑路計劃 - 介紹

昨天晚上正在調(diào)試我的豆瓣圖書備份腳本時,我就被豆瓣永久封禁了。我總算成為一個活生生的豆瓣無警告、無告知封禁的案例了。好在我的書影音條目沒有被豆瓣隱藏,但我的3k+收藏日記已經(jīng)看不到了。再加上昨天(2020年9月4日)豆瓣宣布要整改豆瓣圖書、近幾個月在豆瓣發(fā)長動態(tài)和長評需要等好幾小時/天的審核【友鄰“喪面人”和“水泥”的遭遇】

當然可能許多人還有友鄰在豆瓣上,不舍得離開。但如果有喜歡的友鄰現(xiàn)在不去詢問其他聯(lián)系方式/平臺賬號,等到他們封禁后這個人的存在將會被豆瓣從你的世界抹去,不難受嗎?還有他們的日記、長評也“被消失”,多可惜?

所以我不打算再在豆瓣發(fā)布長文章,能看到本文的豆瓣用戶可能也算是我以前《豆瓣備份計劃》的老用戶了吧,如果是新人也不用擔心,不麻煩,腳本幫你解決了大部分操作。

1. 準備工作

一臺電腦。macOS 需要安裝 python3 運行源碼。Windows可直接用exe

解壓我的腳本壓縮包,解壓到一個找得到的位置

500+以上條目請做好被豆瓣暫時控制 ip 訪問(1天左右)的覺悟,你可以用手機app玩豆瓣

2. 獲取你的豆瓣 id

豆瓣id是標示你的唯一代號,并不是你的用戶昵稱。電腦端可以打開個人主頁https://www.douban.com/mine/查看你的豆瓣id?

爬取圖書條目需要你找到你的cookies(點擊左邊小三角形展開

按照下面文章流程可以找到。我們的目標是找到一串類似:“dbcl2:20042639xxxx”的字符串。當然你可以直接使用我小號的cookies:dbcl2="222850174:jS1eZuld1po"??赡芎芸炀蜁?。使用自己的cookies會有凍結(jié)賬號乃至封禁的風險,我不確定豆瓣的管理辦法請各位自己考慮清楚。

http://www.itdecent.cn/p/5aab0a57a1d1?

恭喜,你已經(jīng)完成所有手動操作

3. 把你的書影記錄下載為表格

使用我開發(fā)的python腳本,你可以把你的書影記錄下載為表格(csv)。以后可以用Excel、WPS打開查看,也可以導入Notion筆記,csv是一個很常用的數(shù)據(jù)保存格式。

腳本的源碼可以在https://github.com/JimSunJing/douban_crawler看到,macOS用戶可以直接下載源碼使用。

很簡單,將腳本【解壓】到一個【以后找得到】的文件夾。

雙擊exe、根據(jù)屏幕上的要求輸入你的備份類型、豆瓣 id、cookies(電影備份可不輸入),指定頁碼(便于你分批備份)

爬取結(jié)束后將會在文件夾里出現(xiàn)一個csv文檔:icecode-2020-09-07 12-54-09想讀plus.csv可以打開看一下爬取的內(nèi)容:


4. 往Notion的數(shù)據(jù)表導入

新建一個 Table,刪除原有的行,將標題表頭改成“電影名“OR”書名”(見展開圖4-1)

圖4-1

點擊右上角的【···】再點擊【Merge with CSV】選擇csv文件

把表格的【warp-cell】關(guān)閉會美觀一些

將【封面】表頭屬性改為【Files&Media】

【短評們】里面是豆瓣上的熱門短評匯總

點擊左上角【Add a view】添加一個Gallery視圖

添加完打開你會發(fā)現(xiàn)封面無法顯示,你需要點擊表格上【Properties】進行封面設(shè)置,再打開選擇【Fit Image】

這是將【Card Size】設(shè)置為【Small】的效果:

腳本可以在 https://www.notion.so/jimsun6428/for-Share-26945cf67a2a407cb9f381109dd438a1 下載。我已經(jīng)爬取了我死去的賬號的書影作為紀念。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容