Python網(wǎng)絡(luò)爬蟲:爬取簡書推薦內(nèi)容

項(xiàng)目目標(biāo)

獲得http://www.itdecent.cn的所有首頁推薦并將其打印出來。

網(wǎng)站分析

每一個(gè)推薦結(jié)構(gòu)大概都是:

<div class="content">
    <a class="title" target="_blank" href="/p/[0-9a-z]{12}">標(biāo)題</a>
    <p class="abstract">
        “
        內(nèi)容簡介
        ”
    </p>
    <div class="meta">...</div>
</div>

我們可以從標(biāo)題入手獲得信息。

代碼

第三方包的準(zhǔn)備

pip install beautifulsoup4

Talk is cheap, show him the code.

from bs4 import BeautifulSoup
from urllib.request import urlopen, Request


# 配置User-Agent并創(chuàng)建Request對(duì)象
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0'}
req = Request(url='http://www.itdecent.cn/', headers=headers)

# 爬取網(wǎng)頁
bs = BeautifulSoup(urlopen(req).read(), 'html.parser')
all_article = bs.find_all('a', {'class': 'title', 'target': '_blank'})

# 顯示數(shù)據(jù)
for article in all_article:
    print('=====文章=====')
    print('標(biāo)題:{}'.format(article.get_text()))
    print('鏈接:{}'.format('http://www.itdecent.cn'+article.attrs['href']))
    print(article.parent.p.get_text()[7:])    # 每個(gè)描述字符串前都有7個(gè)空格,需要截?cái)?    print('============\n')

為什么要配置User-Agent?因?yàn)楹啎鴮?duì)網(wǎng)絡(luò)爬蟲有限制,如果不配置,就會(huì)出現(xiàn)HTTPError: 403Forbidden。

輸出結(jié)果

=====文章=====
標(biāo)題:試著投稿
鏈接:http://www.itdecent.cn/p/9ead36dec148
在簡書已經(jīng)寫作4、5個(gè)月了。 關(guān)注53 ,粉絲19 ,文章135篇 ,收獲喜歡85 ,收獲簡書鉆58 首先感謝簡書網(wǎng)的管理和編輯對(duì)我寫作小白的支...
    
============

=====文章=====
標(biāo)題:這十種體相的女人,注定大富大貴!
鏈接:http://www.itdecent.cn/p/7aa3ba3709d2
掌心存水 你可做個(gè)試驗(yàn),先把手伸直伸平就是放在水平位置上,然后把杯子中的水倒在手掌中央,一分鐘后觀察留在手掌中央的水,看看有多少。水的多少代表你...
    
============

=====文章=====
標(biāo)題:我想一直和你在一起
鏈接:http://www.itdecent.cn/p/ee294da1c47e
??我希望我們吵架你能夠遷就我,即使我嘴硬不肯承認(rèn)是我的錯(cuò)你也能包容我,尤其是我摔門而走的時(shí)候,一定要找我回來,因?yàn)槲也皇钦娴囊?,我就是想看?..
    
============

=====文章=====
標(biāo)題:林鋒與女友在日本玩出了一個(gè)另類新高度!
鏈接:http://www.itdecent.cn/p/e995b8146b48
林峰,屬于三線明星,名氣小到可以忽略不計(jì),很多人聽起這個(gè)名字的時(shí)候感覺很陌生完全沒什么奇怪的,可是你明白嗎?就是這樣一個(gè)小小的明星帶著女友去日本...
    
============

=====文章=====
標(biāo)題:女人,往后余生,要好好自我提升,走出舒適區(qū)
鏈接:http://www.itdecent.cn/p/c6c248cf676e
我始終覺得我的2018年,是特殊的一年,已經(jīng)逝去的一年…… 這一年,我27歲,我開始喜歡我的工作,開始享受生活。平平淡淡,安安靜靜,一邊做著安逸...
    
============

=====文章=====
標(biāo)題:寫聽書稿,給我?guī)砹耸裁?鏈接:http://www.itdecent.cn/p/579ddc4d43bb
去年下半年,有緣結(jié)識(shí)了聽書稿這個(gè)文體,然后有幸與兩個(gè)聽書稿平臺(tái)簽約,從此,一點(diǎn)點(diǎn)地在聽書稿寫作的路上學(xué)習(xí)和成長。 說起寫稿的收獲,大家一定覺得不...
    
============

=====文章=====
標(biāo)題:小家如何越住越大?這12件事打死都不要做!
鏈接:http://www.itdecent.cn/p/363f997d0ac6
小戶型裝修設(shè)計(jì)堅(jiān)決不能碰的12件事,外加小戶型裝修配色攻略。對(duì)于小戶型裝修來說最好就是簡約風(fēng)?真的是果不其然。其實(shí)小戶型空間可以很好的表達(dá)現(xiàn)代感...
    
============
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲,即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spide...
    隨風(fēng)化作雨閱讀 1,268評(píng)論 0 0
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)提取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、...
    whenif閱讀 18,298評(píng)論 45 523
  • **2014真題Directions:Read the following text. Choose the be...
    又是夜半驚坐起閱讀 11,037評(píng)論 0 23
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,840評(píng)論 0 10
  • 路一步一步走 剛畢業(yè)心理素質(zhì)不是太好,總是太顧及別人的眼光,內(nèi)心又不肯妥協(xié),所以大家認(rèn)為是合適的我就覺得合適,其實(shí)...
    紫貍閱讀 248評(píng)論 0 0

友情鏈接更多精彩內(nèi)容