爬蟲入門2(爬取酷狗TOP500的數(shù)據(jù))

萬惡的酷狗瀏覽器網(wǎng)頁版居然只能看第一頁,要下載播放器才能瀏覽后面的內(nèi)容。
此段代碼爬取所有的歌曲及鏈接

image.png

第一頁就是這樣的,觀察發(fā)現(xiàn)https://www.kugou.com/yy/rank/home/1-8888.html?from=rank
把1改成2
https://www.kugou.com/yy/rank/home/2-8888.html?from=rank
就是第二頁了,爬取多頁,如下
'''
import lxml
import requests
from bs4 import BeautifulSoup

headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}

def get_informations(url):
web_data=requests.get(url,headers)
soup=BeautifulSoup(web_data.text,"lxml")
informations=soup.find_all("a","pc_temp_songname")
for information in informations:
data={
'歌曲':information.get('title'),
'網(wǎng)址':information.get("href")
}
print(data)
urls=["https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank".format(str(i)) for i in range(1,24)]
for url in urls:
get_informations(url)
'''

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 爬蟲三大庫 request、BeautifulSoup、lxml庫 推薦使用lxml作為解釋器,其效率高 使用請(qǐng)求...
    李玉奇_1aeb閱讀 514評(píng)論 0 0
  • 目標(biāo)需求爬取百度百科一百個(gè)詞條,保存其相關(guān)的鏈接、標(biāo)題、摘要信息 爬蟲架構(gòu)想象一下爬蟲運(yùn)行的過程,從計(jì)算機(jī)啟動(dòng),從...
    zhile_doing閱讀 358評(píng)論 1 0
  • 指尖蝶舞的花園閱讀 375評(píng)論 0 2
  • --226天 在任何時(shí)候,語言必須要建立在尊重他人的基礎(chǔ)上: 1,自己說的話要讓對(duì)方容易理解; 2,在正常情況下...
    Alina_qi閱讀 109評(píng)論 0 1
  • 項(xiàng)目分層思想介紹: 持久層:JDBC,Mybatis,Hibernate,SpringData表現(xiàn)層:Spring...
    神豪VS勇士贏閱讀 306評(píng)論 0 0

友情鏈接更多精彩內(nèi)容