https://yunhai.ctrip.com/Games/6
無聊打算嘗試爬下裏面的數(shù)據(jù)列表,發(fā)現(xiàn)網(wǎng)頁源代碼裏面找不到想要的數(shù)據(jù)= =。。
后發(fā)現(xiàn)是JS動態(tài)加持,也不知道怎麼提取domain
看了一下http://www.itdecent.cn/p/9de3be54abc1
這裏的介紹
然後到這

image.png
copy domain (https://yunhai.ctrip.com/api/games/data/6)
剩下就是一頓提取啦
import requests
import json
from bs4 import BeautifulSoup
import bs4
import pandas as pd
#提取到的網(wǎng)站
url = 'https://yunhai.ctrip.com/api/games/data/6'
#經(jīng)典二連
r = requests.get(url)
html = r.text
#我也不知道我在幹嘛 花里胡哨的轉(zhuǎn)格式
data=json.loads(html)
k = data['DataDesc']
soup = BeautifulSoup(k,'html.parser')
#創(chuàng)兩個list,一個放中文,一個放英文
a = []
b = []
for tr in soup.find('tbody').children:
if isinstance(tr,bs4.element.Tag):
tds = tr('td')
a.append(tds[0].string)
b.append(tds[1].string)
#轉(zhuǎn)dataframe
data = pd.DataFrame(a,columns = ['label'])
data['chinese'] = b
data

完成