記第一次JS動態(tài)的小小爬蟲

https://yunhai.ctrip.com/Games/6
無聊打算嘗試爬下裏面的數(shù)據(jù)列表,發(fā)現(xiàn)網(wǎng)頁源代碼裏面找不到想要的數(shù)據(jù)= =。。
后發(fā)現(xiàn)是JS動態(tài)加持,也不知道怎麼提取domain
看了一下http://www.itdecent.cn/p/9de3be54abc1
這裏的介紹
然後到這

image.png

copy domain (https://yunhai.ctrip.com/api/games/data/6

剩下就是一頓提取啦

import requests
import json
from bs4 import BeautifulSoup
import bs4
import pandas as pd

#提取到的網(wǎng)站
url = 'https://yunhai.ctrip.com/api/games/data/6'

#經(jīng)典二連
r = requests.get(url)
html = r.text

#我也不知道我在幹嘛 花里胡哨的轉(zhuǎn)格式
data=json.loads(html)
k = data['DataDesc']
soup = BeautifulSoup(k,'html.parser')

#創(chuàng)兩個list,一個放中文,一個放英文
a = []
b = []

for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds = tr('td')
            a.append(tds[0].string)
            b.append(tds[1].string)

#轉(zhuǎn)dataframe
data = pd.DataFrame(a,columns = ['label'])
data['chinese'] = b
data
完成
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 《達爾文所未知的》解說詞 撰寫(Written):阿爾芒·馬裏耶(The Animal Mother) 翻譯(Tr...
    JENTSON閱讀 1,617評論 0 1
  • 我們學會思考的那一天——紀錄片文字記錄 The Day We Learned To Think - program...
    JENTSON閱讀 593評論 0 0
  • 概述 docker 是一個開發(fā)、交付和運行的開放平臺。docker 能使你的應用和基礎設施解耦,從而使軟件交付更加...
    成長的鍵盤手閱讀 472評論 0 1
  • 文/聲色世界 本是蓬蒿人,偶做廟堂客。 執(zhí)念經(jīng)閣半卷書,坐井觀天闊。 無意取功名,海斗量福禍。 論到囊中羞澀時,直...
    聲色世界live閱讀 1,296評論 0 2
  • 爸爸去走訪了一個當老師親戚,自然而然的,也就聊到了家里的學生。 說到一個孩子,在一步步墮落 在學校做錯...
    喔喔奶糖_7a85閱讀 271評論 1 0

友情鏈接更多精彩內(nèi)容