關注我的你應該已經(jīng)學會了:爬取妹子圖整站數(shù)據(jù)(教程已下架)
于是有人不禁會問:拿幾十G的圖片有什么用呢?
有什么用呢?我也自問。于是下面這個網(wǎng)站就誕生了......
小姐姐 ( 施工重地,閑人免入!女生請繞道~)
如果你想通過爬蟲自動采集數(shù)據(jù)(比如:mm131、mmjpg、妹子圖等各大美女圖片站),并與前端網(wǎng)頁對接,將采集到的數(shù)據(jù)自動呈現(xiàn)到網(wǎng)頁上,從而搭建一個屬于自己的圖片站。那么,以下內(nèi)容就是為你準備的!按著步驟來一定可以實現(xiàn)你想要的,當你對這個項目有了自己的認知后,就可以考慮二次開發(fā)精進創(chuàng)作~
(以下操作默認你已經(jīng)擁有域名、服務器,安裝了寶塔面板以及能通過Xshell連接,我也寫了一篇小白教程幫你解決這些問題)
準備好就開始吧!
解析域名
(以我在用的GoDaddy域名為例)
- 訪問GoDaddy官網(wǎng)并登錄
- 打開域名管理器-DNS管理-添加記錄
類型:A
主機:隨意(比如:mm)
指向:填入服務器的ip地址
TTL:1/2小時
創(chuàng)建站點
進入寶塔面板,添加站點
設置根目錄為:/root/94imm,同時創(chuàng)建MySQL數(shù)據(jù)庫,PHP版本設置為純靜態(tài)進入網(wǎng)站根目錄,上傳源代碼文件
修改silumz文件夾下settings.py文件中的數(shù)據(jù)庫配置,將程序目錄下的silumz.sql文件導入數(shù)據(jù)庫
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': '數(shù)據(jù)庫名',
'USER': '數(shù)據(jù)庫用戶名',
'PASSWORD': '數(shù)據(jù)庫密碼',
'HOST': '127.0.0.1',
'PORT': '3306',
}
}
啟動項目
- 打開Xshell,進入程序目錄
安裝所需的Python第三方庫:pip3 install -r requirements.txt - 執(zhí)行啟動命令:
uwsgi --ini uwsgi.ini
反向代理
- 進入寶塔面板,管理創(chuàng)建的站點
- 設置反向代理,目標URL為:http://127.0.0.1:8000
到這一步,項目網(wǎng)站就搭建好了,但此時網(wǎng)站還沒有數(shù)據(jù),需要運行爬蟲程序爬取。爬蟲程序位于crawler目錄下,每一個文件都是獨立的,可單獨執(zhí)行。第一次運行時,可修改爬蟲參數(shù)采集全站,之后修改參數(shù)為采集第一頁,配合定時任務,實現(xiàn)自動采集和發(fā)布
自動采集和發(fā)布
(以crawler_mm131.py爬蟲程序為例)
- 修改程序中的數(shù)據(jù)庫配置
dbhost = {
"host": "127.0.0.1",
"dbname": "數(shù)據(jù)庫名",
"user": "數(shù)據(jù)庫用戶名",
"password": "數(shù)據(jù)庫密碼"
}
- 打開Xshell,進入程序目錄
啟動爬蟲:python3 crawler_mm131.py -
配合寶塔面板設置自動采集
- 重啟網(wǎng)站:
sh /root/94imm/restart.sh
完成采集后清空cache文件或重啟網(wǎng)站就能生效哦~
進階技巧
1.網(wǎng)站采集數(shù)據(jù)后,如果點擊圖集無法跳轉(zhuǎn),則需要在數(shù)據(jù)庫中手動添加圖片分類
- 進入寶塔面板,找到相應的數(shù)據(jù)庫,點擊“管理”
-
點擊“images_type”-“插入”-在字段id和type的對應框中輸入數(shù)字和圖片類型
在爬蟲文件中可以找到需要輸入的信息,比如crawler_mm131.py中有性感美女和清純妹子兩個分類,分類id分別為1和3
2.發(fā)布本地圖片
- 進入爬蟲程序目錄crawler,運行AutoPost.py,根據(jù)提示輸入本地圖片所在路徑,輸入自動發(fā)布時間
3.圖片壓縮
- 部分網(wǎng)站可能未對圖片進行壓縮,一張圖1M甚至幾M,既降低傳輸速度又占空間
- 進入爬蟲程序目錄crawler,運行Compress.py,根據(jù)提示輸入,默認10個線程壓縮,如果服務器配置高可適當增加,只壓縮圖片質(zhì)量,尺寸不變
4.刪除圖集
- 進入爬蟲程序目錄crawler,運行delete_img.py,根據(jù)提示輸入圖集鏈接“/article/59885/”中的數(shù)字59885即可,會同時刪除數(shù)據(jù)庫記錄和采集的圖片
5.下載采集未完成的圖片
- 進入爬蟲程序目錄crawler,運行down_img.py,自動查找數(shù)據(jù)庫中存在但static/images目錄中不存在的記錄重新下載。并刪除只有采集記錄沒有圖片的數(shù)據(jù)


