中國大學(xué)哪家強?Python爬取排名榜,太棒啦(31)

小朋友們好,大朋友們好!

我是貓妹,一名愛上Python編程的小學(xué)生。

歡迎和貓妹一起,趣味學(xué)Python。

今日主題

如何用Python,抓取并分析2023中國大學(xué)排名數(shù)據(jù)。

用到的Python庫有requests、bs4。

requests庫

requests庫是Python基于urllib,采用Apache2 Licensed開源協(xié)議的HTTP庫。

它比urllib更加方便,完全滿足HTTP測試需求。

Requests的哲學(xué)是以PEP20的習(xí)語為中心開發(fā)的,它比urllib更加Pythoner。

可以通過pip install requests 安裝 requests庫。

舉個簡單的例子:

我們?nèi)粘?吹降木W(wǎng)頁是這樣的

我們看到的是部分信息,還有許多信息看不到的,比如排版、交互等。

如果要看更多信息,要在哪里看呢?

當(dāng)然是網(wǎng)頁源代碼啦!

網(wǎng)頁源代碼長這樣,這里面是前端信息,主要是html標(biāo)簽等。

看到網(wǎng)頁源代碼后,第一印象是啥?

很多,很復(fù)雜,很難手寫。

有很多設(shè)計工具可以輔助生成網(wǎng)頁源代碼的。

要解析網(wǎng)頁源代碼,可以用Python,比如借助于bs4庫。

bs4庫

bs4 全名 BeautifulSoup,是編寫 python 爬蟲常用庫之一,主要用來解析 html 標(biāo)簽。

可以通過pip install beautifulsoup4安裝bs4 庫。

說得簡單點,bs庫就是分析上述字符串,把自己感興趣的信息提取出來。

將網(wǎng)頁源代碼解析后的信息是這樣的:

測試代碼

對中國大學(xué)排名,感興趣的小伙伴,可以直接網(wǎng)站上瀏覽哈

好了,我們今天就學(xué)到這里吧!

如果遇到什么問題,咱們多多交流,共同解決。

我是貓妹,咱們下次見!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容