Python爬取豆瓣影評(使用pycharm+Python)
一、安裝調(diào)用所要用到的庫函數(shù)
import requests
from bs4 import BeautifulSoup
二、自定義根據(jù)每頁影評的url爬取影評的方法
# 1.請求url
def getData(url):
三、請求頭為字典格式
# 2.請求頭為字典格式
# 請求頭中有很多內(nèi)容,User-Agent是必加
# cookie也可以添加(因為cookie在web開發(fā)中常用于前端緩存,可以存儲用戶登錄信息)
# 有些網(wǎng)站可以先登錄之后再去重新獲取cookie添加到請求頭中
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67'
}
四、攜帶請求頭去發(fā)請求
response = requests.get(url=url, headers=headers)
五、使用“bs4”和“html5lib”解析網(wǎng)頁內(nèi)容
bs = BeautifulSoup(response.content, 'html5lib')
六、獲取所有的評論 span標簽
short_list = bs.find_all("span", attrs={"class": "short"})
七、遍歷shortList
for short in short_list:
八、獲取標簽內(nèi)部的文字
content = short.text
print(content)
九、main函數(shù)(整個程序的入口)
if __name__ == '__main__': for i in range(1): # 打印的次數(shù) baseurl = 'https://movie.douban.com/subject/30174085/comments?sort=new_score&status=P' baseurl = baseurl.format(i * 20) # 打印的范圍(條數(shù)) # 循環(huán)調(diào)用爬取每頁影評的方法 getData(baseurl)
附件:完整代碼
# Python爬取豆瓣影評#(爬取其他電影影評需替換'User-Agent'和打印網(wǎng)址)
import requestsfrom bs4 import BeautifulSoup
# 自定義根據(jù)每頁影評的url爬取影評的方法
def getData(url):
# 請求頭為字典格式(可自定義替換'User-Agent')
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67' }
# 攜帶請求頭去發(fā)請求
response = requests.get(url=url, headers=headers)
# 使用bs4和html5lib解析網(wǎng)頁內(nèi)容
bs = BeautifulSoup(response.content, 'html5lib')
# 獲取所有的評論 span標簽
short_list = bs.find_all("span", attrs={"class": "short"})
# 遍歷shortList
for short in short_list:
# 獲取標簽內(nèi)部的文字
content = short.text
print(content)
# main函數(shù):整個程序的入口
if __name__ == '__main__': for i in range(1): # 打印的次數(shù)
# 可自定義替換地址
baseurl = 'https://movie.douban.com/subject/30174085/comments?sort=new_score&status=P'
# 打印的范圍(條數(shù))
baseurl = baseurl.format(i * 20)
# 循環(huán)調(diào)用爬取每頁影評的方法
getData(baseurl)
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。