web crawler library for static websites

What you need to crawling static websites.

python 3 library:

requests
connect to websites and working with URLs.

** beautiful soup**
a Python library for pulling data out of HTML and XML files. you can navigating the DOM tree or searching the DOM tree using css selector or re.

urllib
a package that collects several modules for working with URLs:
urllib.request
for opening and reading URLs
urllib.parse
for parsing URLs

import requests
from bs4 import BeautifulSoup as bs 
import urllib
import re
Get Started with my github guide:

https://github.com/HoweZZH/EasyScraping

References:

https://www.crummy.com/software/BeautifulSoup/
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://realpython.com/blog/python/web-scraping-with-scrapy-and-mongodb/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • afinalAfinal是一個(gè)android的ioc,orm框架 https://github.com/yangf...
    passiontim閱讀 15,876評(píng)論 2 45
  • PLEASE READ THE FOLLOWING APPLE DEVELOPER PROGRAM LICENSE...
    念念不忘的閱讀 13,660評(píng)論 5 6
  • 兩種最普遍的推薦系統(tǒng)的類型是基于內(nèi)容和協(xié)同過濾(CF)。協(xié)同過濾基于用戶對(duì)產(chǎn)品的態(tài)度產(chǎn)生推薦,基于內(nèi)容的推薦系統(tǒng)基...
    Guolz閱讀 10,618評(píng)論 6 15
  • 每個(gè)有心進(jìn)取的人,都有一顆奔騰躁動(dòng)的心,一路上不斷的努力前進(jìn),也不斷的半途而廢,不管前路是否有知己,總是帶著希望在...
    浮塵過隙閱讀 290評(píng)論 0 0
  • 設(shè)計(jì)模式———裝飾模式 例子:成績(jī)單報(bào)告 在面向?qū)ο蟮脑O(shè)計(jì)中,如果超過兩層繼承,可能就出設(shè)計(jì)問題了。這是經(jīng)驗(yàn)總結(jié),...
    書筆年華閱讀 506評(píng)論 0 0

友情鏈接更多精彩內(nèi)容