Python爬蟲進階:搭建屬于自己的美少女圖片站

關注我的你應該已經(jīng)學會了:爬取妹子圖整站數(shù)據(jù)(教程已下架)

于是有人不禁會問:拿幾十G的圖片有什么用呢?

有什么用呢?我也自問。于是下面這個網(wǎng)站就誕生了......

小姐姐 ( 施工重地,閑人免入!女生請繞道~)

如果你想通過爬蟲自動采集數(shù)據(jù)(比如:mm131、mmjpg、妹子圖等各大美女圖片站),并與前端網(wǎng)頁對接,將采集到的數(shù)據(jù)自動呈現(xiàn)到網(wǎng)頁上,從而搭建一個屬于自己的圖片站。那么,以下內(nèi)容就是為你準備的!按著步驟來一定可以實現(xiàn)你想要的,當你對這個項目有了自己的認知后,就可以考慮二次開發(fā)精進創(chuàng)作~

(以下操作默認你已經(jīng)擁有域名、服務器,安裝了寶塔面板以及能通過Xshell連接,我也寫了一篇小白教程幫你解決這些問題)

準備好就開始吧!

解析域名

(以我在用的GoDaddy域名為例)

  • 訪問GoDaddy官網(wǎng)并登錄
  • 打開域名管理器-DNS管理-添加記錄
    類型:A
    主機:隨意(比如:mm)
    指向:填入服務器的ip地址
    TTL:1/2小時

創(chuàng)建站點

  • 進入寶塔面板,添加站點
    設置根目錄為:/root/94imm,同時創(chuàng)建MySQL數(shù)據(jù)庫,PHP版本設置為純靜態(tài)

  • 進入網(wǎng)站根目錄,上傳源代碼文件
    修改silumz文件夾下settings.py文件中的數(shù)據(jù)庫配置,將程序目錄下的silumz.sql文件導入數(shù)據(jù)庫

DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': '數(shù)據(jù)庫名',
        'USER': '數(shù)據(jù)庫用戶名',
        'PASSWORD': '數(shù)據(jù)庫密碼',
        'HOST': '127.0.0.1',
        'PORT': '3306',
    }
}

啟動項目

  • 打開Xshell,進入程序目錄
    安裝所需的Python第三方庫:pip3 install -r requirements.txt
  • 執(zhí)行啟動命令:uwsgi --ini uwsgi.ini

反向代理

  • 進入寶塔面板,管理創(chuàng)建的站點
  • 設置反向代理,目標URL為:http://127.0.0.1:8000

到這一步,項目網(wǎng)站就搭建好了,但此時網(wǎng)站還沒有數(shù)據(jù),需要運行爬蟲程序爬取。爬蟲程序位于crawler目錄下,每一個文件都是獨立的,可單獨執(zhí)行。第一次運行時,可修改爬蟲參數(shù)采集全站,之后修改參數(shù)為采集第一頁,配合定時任務,實現(xiàn)自動采集和發(fā)布

自動采集和發(fā)布

(以crawler_mm131.py爬蟲程序為例)

  • 修改程序中的數(shù)據(jù)庫配置
dbhost = {
    "host": "127.0.0.1",
    "dbname": "數(shù)據(jù)庫名",
    "user": "數(shù)據(jù)庫用戶名",
    "password": "數(shù)據(jù)庫密碼"
}
  • 打開Xshell,進入程序目錄
    啟動爬蟲:python3 crawler_mm131.py
  • 配合寶塔面板設置自動采集


  • 重啟網(wǎng)站:sh /root/94imm/restart.sh
    完成采集后清空cache文件或重啟網(wǎng)站就能生效哦~

進階技巧

1.網(wǎng)站采集數(shù)據(jù)后,如果點擊圖集無法跳轉(zhuǎn),則需要在數(shù)據(jù)庫中手動添加圖片分類

  • 進入寶塔面板,找到相應的數(shù)據(jù)庫,點擊“管理”
  • 點擊“images_type”-“插入”-在字段id和type的對應框中輸入數(shù)字和圖片類型


    在爬蟲文件中可以找到需要輸入的信息,比如crawler_mm131.py中有性感美女和清純妹子兩個分類,分類id分別為1和3


2.發(fā)布本地圖片

  • 進入爬蟲程序目錄crawler,運行AutoPost.py,根據(jù)提示輸入本地圖片所在路徑,輸入自動發(fā)布時間

3.圖片壓縮

  • 部分網(wǎng)站可能未對圖片進行壓縮,一張圖1M甚至幾M,既降低傳輸速度又占空間
  • 進入爬蟲程序目錄crawler,運行Compress.py,根據(jù)提示輸入,默認10個線程壓縮,如果服務器配置高可適當增加,只壓縮圖片質(zhì)量,尺寸不變

4.刪除圖集

  • 進入爬蟲程序目錄crawler,運行delete_img.py,根據(jù)提示輸入圖集鏈接“/article/59885/”中的數(shù)字59885即可,會同時刪除數(shù)據(jù)庫記錄和采集的圖片

5.下載采集未完成的圖片

  • 進入爬蟲程序目錄crawler,運行down_img.py,自動查找數(shù)據(jù)庫中存在但static/images目錄中不存在的記錄重新下載。并刪除只有采集記錄沒有圖片的數(shù)據(jù)
項目源碼

https://pan.baidu.com/s/1Gj7UJ0XWuh2bI9IIZnv4ZA 提取碼:72oo

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即...
    visiontry閱讀 7,695評論 1 99
  • 自由職業(yè)一年有余,微信通訊錄里的聯(lián)系人超過500,各類大小群超過20。 除了微商,別人當面添加我為好友或是線上打過...
    Teacher桃貓?zhí)剿?/span>閱讀 165評論 0 0
  • 思想需要經(jīng)驗的積累,靈感需要感受的沉淀,最細致的體驗需要最寧靜、透徹的觀照,哪一樣可以在忙碌中產(chǎn)生呢?我相信:奔忙...
    靜好_c880閱讀 316評論 0 0
  • 雖然經(jīng)常送孩子上輪滑課,卻很少在邊上陪著看她練習,基本上就屬于她練她的,我練我的,時間到了一起回家,前天偶...
    北鼻教你做個窩閱讀 449評論 0 0
  • 都說,女兒是爸爸的小情人。可你對你的小情人,不能說不好,是我感受不到你對她的好。 如果不是自家姑娘的相貌和你有百分...
    風飛柳絮閱讀 270評論 0 0

友情鏈接更多精彩內(nèi)容