小朋友們好,大朋友們好!
我是貓妹,一名愛上Python編程的小學(xué)生。
歡迎和貓妹一起,趣味學(xué)Python。
今日主題
如何用Python,抓取并分析2023中國大學(xué)排名數(shù)據(jù)。
用到的Python庫有requests、bs4。
requests庫
requests庫是Python基于urllib,采用Apache2 Licensed開源協(xié)議的HTTP庫。
它比urllib更加方便,完全滿足HTTP測試需求。
Requests的哲學(xué)是以PEP20的習(xí)語為中心開發(fā)的,它比urllib更加Pythoner。
可以通過pip install requests 安裝 requests庫。
舉個簡單的例子:
我們?nèi)粘?吹降木W(wǎng)頁是這樣的
我們看到的是部分信息,還有許多信息看不到的,比如排版、交互等。
如果要看更多信息,要在哪里看呢?
當(dāng)然是網(wǎng)頁源代碼啦!
網(wǎng)頁源代碼長這樣,這里面是前端信息,主要是html標(biāo)簽等。
看到網(wǎng)頁源代碼后,第一印象是啥?
很多,很復(fù)雜,很難手寫。
有很多設(shè)計工具可以輔助生成網(wǎng)頁源代碼的。
要解析網(wǎng)頁源代碼,可以用Python,比如借助于bs4庫。
bs4庫
bs4 全名 BeautifulSoup,是編寫 python 爬蟲常用庫之一,主要用來解析 html 標(biāo)簽。
可以通過pip install beautifulsoup4安裝bs4 庫。
說得簡單點,bs庫就是分析上述字符串,把自己感興趣的信息提取出來。
將網(wǎng)頁源代碼解析后的信息是這樣的:
測試代碼
對中國大學(xué)排名,感興趣的小伙伴,可以直接網(wǎng)站上瀏覽哈
好了,我們今天就學(xué)到這里吧!
如果遇到什么問題,咱們多多交流,共同解決。
我是貓妹,咱們下次見!