Python webbrowser,requests,bs4 模塊學(xué)習(xí)筆記(一)

# -*- coding: utf-8 -*-
# Version: Python 3.9.5
# Author: TRIX
# Date: 2021-09-07 11:33:01
# Use:
from logging import basicConfig,DEBUG,debug,CRITICAL,disable # Import debugging module
#disable(CRITICAL)# Remove # when the program is completed
basicConfig(level=DEBUG, format='%(levelname)s: %(message)s. [%(lineno)d]%(filename)s <%(asctime)s>',filename='debug.log',filemode='w')# Set debugging mode. Replace print() with debug()

u'str'#unicode字符
r'str'#非轉(zhuǎn)義字符
b'str'#二進(jìn)制字符

import webbrowser
webbrowser.open('url')#打開url網(wǎng)站

import requests
rget = requests.get('url')#對(duì)url發(fā)送http get 請(qǐng)求
rpost = requests.post('url', data = {'key':'value'})#對(duì)url發(fā)送http post 請(qǐng)求
rput = requests.put('url', data = {'key':'value'})#對(duì)url發(fā)送http put 請(qǐng)求
rdelete = requests.delete('url')#對(duì)url發(fā)送http delete 請(qǐng)求
rhead = requests.head('url')#對(duì)url發(fā)送http head 請(qǐng)求
roptions = requests.options('url')#對(duì)url發(fā)送http options 請(qǐng)求
paradict = {'key1': 'value1', 'key2': ['value2', 'value3']}
rget=requests.get('https://httpbin.org/get',params=paradict)#附加paradict參數(shù)發(fā)送請(qǐng)求 rget.url==https://httpbin.org/get?key1=value1&key2=value2&key2=value3
rget.url#url
rget.content#網(wǎng)頁(yè)html內(nèi)容 bytes字節(jié)碼
rget.encoding#網(wǎng)頁(yè)編碼格式
rget.apparent_encoding#網(wǎng)頁(yè)文本編碼 先使用這句獲取網(wǎng)頁(yè)編碼格式
rget.text#網(wǎng)頁(yè)html內(nèi)容
rget.status_code#網(wǎng)頁(yè)狀態(tài)碼
#狀態(tài)碼 200 請(qǐng)求成功
#狀態(tài)碼 404 沒(méi)有發(fā)現(xiàn)文件、查詢或URl
#狀態(tài)碼 405 用戶在Request-Line字段定義的方法不允許
try:rget.raise_for_status()#如果請(qǐng)求失敗 引起異常 如果請(qǐng)求成功 就什么都不做
except Exception as e:print(e)
with open('web_text.txt','wb') as a:
    for n in rget.iter_content(100000):
        a.write()#向web_text.txt以wb模式寫入網(wǎng)頁(yè)內(nèi)容 wb 二進(jìn)制寫入 能保存文本的unicode編碼

import bs4#處理html 需要安裝 pip install beautifulsoup4
html=bs4.BeautifulSoup(rget.text,'lxml')#處理html
html.prettify()#將html用易讀的方式打印
html.title#<title>str</title>
html.head#<head>str</head>
url_tag=html.a#<a href=url>url_name</a>
url_tag.parent#父tag
parents_gener=url_tag.parents#該tag的所有父tag 返回生成器
url_tag.parent.name#父tag name
html.p#<p>paragraph</p>
html.p.next_sibling#和該tag同一級(jí)的下一個(gè)tag
html.p.prev_sibling#和該tag同一級(jí)的上一個(gè)tag
next_siblings_gener=html.p.next_siblings#和該tag同一級(jí)的下面所有tag 返回生成器
prev_siblings_gener=html.p.prev_siblings#和該tag同一級(jí)的上面所有tag 返回生成器
html.name#[document]
html.title.name#tag name
html.a.next_element#下一個(gè)tag 不分級(jí)
html.a.previous_element#上一個(gè)tag 不分級(jí)
next_elements_gener=html.p.next_elements#和該tag的下面所有tag 不分級(jí) 返回生成器
prev_elements_gener=html.p.prev_elements#和該tag的上面所有tag 不分級(jí) 返回生成器
html.a.attrs#屬性字典 key="value"
html.attrs#屬性字典 key="value"
html.a.string#tag內(nèi)的單個(gè)文字
html.a.text#tag內(nèi)的所有文字
html.body.string#tag內(nèi)的單個(gè)文字
if isinstance(html.a.string,bs4.element.Comment):print(html.a.string)#如果是注釋tag 就打印 有注釋的tag會(huì)造成干擾
tags_list=html.head.contents#將內(nèi)容以外層tag分別為元素 返回列表
tags_gener=html.head.children#將內(nèi)容以外層tag分別為元素 返回生成器
tags_gener=html.descendants#將內(nèi)容的所有tag分別為元素 返回生成器
text_strings_gener=html.strings#所有字符串分別為元素 返回生成器
text_strings_gener=html.stripped_strings#所有字符串去除空白字符后分別為元素 返回生成器

b_list=html.find_all('b')#搜當(dāng)前tag的所有子tag 符合<b>的 返回 組成列表
b_list=html.find_all(re.compile(pattern))#搜當(dāng)前tag的所有子tag 符合pattern的 返回 組成列表
b_list=html.find_all(list,recursive=False)#搜當(dāng)前tag的所有子tag 符合list中任一元素的的 返回 組成列表 非遞歸 只搜tag同級(jí) 不搜子級(jí)
b_list=html.find_all(True,limit=5)#搜索當(dāng)前tag的所有子tag 匹配任何值 但不會(huì)返回string  返回 組成列表 只返回5個(gè)tag
def cust_func(tag):
    return tag.has_attr('class') and not tag.has_attr('id')#如果tag含class 不含id屬性 返回True 等效只找這一類型的tag
cust_list=html.find_all(cust_func,text='str')
cust_list=html.find_all(id='name')#只返回 id='name' 且string為str 的tag
cust_list=html.find_all(href=re.compile(pattern))#只返回 href=re.compile(pattern) 的tag
cust_list=html.find_all(href=re.compile(pattern1),class_=re.compile(pattern2))#只返回 href=re.compile(pattern1),class=re.compile(pattern2) 的tag
html.find()#返回一個(gè)結(jié)果 其他和find_all()相同
html.find_parents()#搜索當(dāng)前tag的所有父級(jí) 其他和find_all()相同
html.find_parent()#搜索當(dāng)前tag的所有父級(jí) 返回一個(gè)結(jié)果 其他和find()相同
html.find_next_siblings()#搜索當(dāng)前tag的所有同級(jí)下面tag 其他和find_all()相同
html.find_next_sibling()#搜索當(dāng)前tag的所有同級(jí)下面tag 返回一個(gè)結(jié)果 其他和find()相同
html.find_previous_siblings()#搜索當(dāng)前tag的所有同級(jí)上面tag 其他和find_all()相同
html.find_previous_sibling()#搜索當(dāng)前tag的所有同級(jí)上面tag 返回一個(gè)結(jié)果 其他和find()相同
html.find_all_next()#搜索當(dāng)前tag的所有下面tag 其他和find_all()相同
html.find_next()#搜索當(dāng)前tag的所有下面tag 返回一個(gè)結(jié)果 其他和find()相同
html.find_all_previous()#搜索當(dāng)前tag的所有上面tag 其他和find_all()相同
html.find_previous()#搜索當(dāng)前tag的所有上面tag 返回一個(gè)結(jié)果 其他和find()相同

html.select('div')#搜索<div></div> 的tag 返回list
html.select('.classname')#搜索class="classname" 的tag 返回list
html.select('#idname')#搜索 id="idname" 的tag 返回list
html.select('p #idname')#搜索 <p></p>中 所有 id="idname"的tag 返回list
html.select('head > title')#搜索 <head></head> 中 所有 <title></title> 的tag 返回list
html.select('a[class="classname"]')#搜索 <a></a> 中 所有 class="classname" 的tag 返回list
url_tags_list=html.select('a[href="url"]')#搜索 <a></a> 中 所有 href="url" 的tag 返回list
for url_tag in url_tags_list:url_tag.get_text()#返回string內(nèi)容
for url_tag in url_tags_list:url_tag.get('href')#返回url內(nèi)容


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容