昨天晚上正在調(diào)試我的豆瓣圖書備份腳本時,我就被豆瓣永久封禁了。我總算成為一個活生生的豆瓣無警告、無告知封禁的案例了。好在我的書影音條目沒有被豆瓣隱藏,但我的3k+收藏日記已經(jīng)看不到了。再加上昨天(2020年9月4日)豆瓣宣布要整改豆瓣圖書、近幾個月在豆瓣發(fā)長動態(tài)和長評需要等好幾小時/天的審核【友鄰“喪面人”和“水泥”的遭遇】

當然可能許多人還有友鄰在豆瓣上,不舍得離開。但如果有喜歡的友鄰現(xiàn)在不去詢問其他聯(lián)系方式/平臺賬號,等到他們封禁后這個人的存在將會被豆瓣從你的世界抹去,不難受嗎?還有他們的日記、長評也“被消失”,多可惜?
所以我不打算再在豆瓣發(fā)布長文章,能看到本文的豆瓣用戶可能也算是我以前《豆瓣備份計劃》的老用戶了吧,如果是新人也不用擔心,不麻煩,腳本幫你解決了大部分操作。
1. 準備工作
一臺電腦。macOS 需要安裝 python3 運行源碼。Windows可直接用exe
解壓我的腳本壓縮包,解壓到一個找得到的位置
500+以上條目請做好被豆瓣暫時控制 ip 訪問(1天左右)的覺悟,你可以用手機app玩豆瓣
2. 獲取你的豆瓣 id
豆瓣id是標示你的唯一代號,并不是你的用戶昵稱。電腦端可以打開個人主頁https://www.douban.com/mine/查看你的豆瓣id?
爬取圖書條目需要你找到你的cookies(點擊左邊小三角形展開
按照下面文章流程可以找到。我們的目標是找到一串類似:“dbcl2:20042639xxxx”的字符串。當然你可以直接使用我小號的cookies:dbcl2="222850174:jS1eZuld1po"??赡芎芸炀蜁?。使用自己的cookies會有凍結(jié)賬號乃至封禁的風險,我不確定豆瓣的管理辦法請各位自己考慮清楚。
http://www.itdecent.cn/p/5aab0a57a1d1?
恭喜,你已經(jīng)完成所有手動操作
3. 把你的書影記錄下載為表格
使用我開發(fā)的python腳本,你可以把你的書影記錄下載為表格(csv)。以后可以用Excel、WPS打開查看,也可以導入Notion筆記,csv是一個很常用的數(shù)據(jù)保存格式。
腳本的源碼可以在https://github.com/JimSunJing/douban_crawler看到,macOS用戶可以直接下載源碼使用。
很簡單,將腳本【解壓】到一個【以后找得到】的文件夾。
雙擊exe、根據(jù)屏幕上的要求輸入你的備份類型、豆瓣 id、cookies(電影備份可不輸入),指定頁碼(便于你分批備份)
爬取結(jié)束后將會在文件夾里出現(xiàn)一個csv文檔:icecode-2020-09-07 12-54-09想讀plus.csv可以打開看一下爬取的內(nèi)容:


4. 往Notion的數(shù)據(jù)表導入
新建一個 Table,刪除原有的行,將標題表頭改成“電影名“OR”書名”(見展開圖4-1)

點擊右上角的【···】再點擊【Merge with CSV】選擇csv文件

把表格的【warp-cell】關(guān)閉會美觀一些

將【封面】表頭屬性改為【Files&Media】

【短評們】里面是豆瓣上的熱門短評匯總

點擊左上角【Add a view】添加一個Gallery視圖


添加完打開你會發(fā)現(xiàn)封面無法顯示,你需要點擊表格上【Properties】進行封面設(shè)置,再打開選擇【Fit Image】

這是將【Card Size】設(shè)置為【Small】的效果:

腳本可以在 https://www.notion.so/jimsun6428/for-Share-26945cf67a2a407cb9f381109dd438a1 下載。我已經(jīng)爬取了我死去的賬號的書影作為紀念。