日韩三极AV,五月人妻中出中文字幕

項目目標：

爬取熱門菜譜清單，獲取菜名、原材料和詳細烹飪流程的URL

步驟與思路：

第一：打開網(wǎng)址，查閱robots協(xié)議
1、網(wǎng)址：http://www.xiachufang.com/explore/
2、它的robots協(xié)議：http://www.xiachufang.com/robots.txt
閱讀這個robots協(xié)議會發(fā)現(xiàn)：我們要爬取的/explore/不在禁止爬取的列表內(nèi)，但如果要爬取/recipe/服務器就會不歡迎。在網(wǎng)頁里，recipe是每一道菜的詳情頁面，記錄了這道菜的做法，所以不去碰它。

第二：ctrl+shift+i查找和定位
1、菜名和URL：下的<a>標簽
提取<a>標簽，用text拿到它的文本，再使用[href]獲取到URL
2、食材：
3、根據(jù)菜名的路徑、URL的路徑、食材的路徑，我們可以這三者的最小共同父級標簽，是：<div class="info pure-u">

第三：思路
思路一：先去爬取所有的最小父級標簽<div class="info pure-u">，然后針對每一個父級標簽，想辦法提取里面的菜名、URL、食材。

思路二：分別提取所有的菜名、所有的URL、所有的食材。然后讓菜名、URL、食材給一一對應起來（把數(shù)據(jù)存到列表里：每一組菜名、URL、食材是一個小列表，小列表組成一個大列表。第0個菜名，對應第0個URL，對應第0組食材，按順序走即可。如下：
[[菜A,URL_A,食材A],[菜B,URL_B,食材B],[菜C,URL_C,食材C]]）

代碼編寫

思路一（先爬最小父級標簽）的寫法：

import requests# 引用requests庫
from bs4 import BeautifulSoup# 引用BeautifulSoup庫
res_foods = requests.get('http://www.xiachufang.com/explore/')# 獲取數(shù)據(jù)
bs_foods = BeautifulSoup(res_foods.text,'html.parser')# 解析數(shù)據(jù)
list_foods = bs_foods.find_all('div',class_='info pure-u')# 查找最小父級標簽
list_all = []# 創(chuàng)建一個空列表，用于存儲信息
for food in list_foods:
tag_a = food.find('a') # 提取food中的<a>標簽
name = tag_a.text[17:-13] # 菜名，使用[17:-13]切掉了多余的信息
URL = 'http://www.xiachufang.com'+tag_a['href'] # 獲取URL
tag_p = food.find('p',class_='ing ellipsis') # 提取food中的標簽
ingredients = tag_p.text[1:-1] # 食材，使用[1:-1]切掉了多余的信息
list_all.append([name,URL,ingredients]) # 將菜名、URL、食材，封裝為列表，添加進list_all
print(list_all)

需要注意__獲取標簽里純文本信息的方法：
查找標簽（比如），然后使用text提取標簽里的純文本信息就可以了。在用text獲取純文本時，獲取的是該標簽內(nèi)的所有純文本信息，不論是直接在這個標簽內(nèi)，還是在它的子標簽內(nèi)。

需要強調(diào)的是，如果是要提取屬性的值，text是不可以的。父標簽只能提取它自身的屬性值，不能提取子標簽的屬性值。比如：
bs = BeautifulSoup('<a )
tag = bs.find('p')
print(tag['href'])# 這樣會報錯，因為標簽沒有屬性href，href屬于<a>標簽

思路二（分別提取，匯總列表）的寫法：

import requests# 引用requests庫
from bs4 import BeautifulSoup# 引用BeautifulSoup庫
res_foods = requests.get('http://www.xiachufang.com/explore/')# 獲取數(shù)據(jù)
bs_foods = BeautifulSoup(res_foods.text,'html.parser')# 解析數(shù)據(jù)
tag_name = bs_foods.find_all('p',class_='name')# 查找包含菜名和URL的標簽
tag_ingredients = bs_foods.find_all('p',class_='ing ellipsis')# 查找包含食材的標簽
list_all = []# 創(chuàng)建一個空列表，用于存儲信息
for x in range(len(tag_name)):# 啟動一個循環(huán)，次數(shù)等于菜名的數(shù)量
list_food = [tag_name[x].text[18:-14],tag_name[x].find('a')['href'],tag_ingredients[x].text[1:-1]] # 提取信息，封裝為列表。注意此處[18:-14]切片和之前不同，是因為此處使用的是標簽，而之前是<a>
list_all.append(list_food) # 將信息添加進list_all
print(list_all)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

BeautifulSoup實踐（3）

BeautifulSoup實踐（3）

項目目標：

步驟與思路：

代碼編寫

思路一（先爬最小父級標簽）的寫法：

思路二（分別提取，匯總列表）的寫法：

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

BeautifulSoup實踐（3）

項目目標：

步驟與思路：

代碼編寫

思路一（先爬最小父級標簽）的寫法：

思路二（分別提取，匯總列表）的寫法：

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

思路二（分別提取，匯總列表）的寫法：