Python 練習(xí)冊(cè) 0007、0008題 (網(wǎng)頁(yè)分析)

第 0008 題:一個(gè)HTML文件,找出里面的正文。

第 0009 題:一個(gè)HTML文件,找出里面的鏈接。

import requests
from bs4 import BeautifulSoup


def get_content(page_url):
    web_data = requests.get(page_url)
    soup = BeautifulSoup(web_data.content, 'lxml')
    contents = soup.select('div.show-content')

    result = ''
    for content in contents:
        result += content.get_text()
    print(result)
    return result


def get_href(page_url):
    web_data = requests.get(page_url)
    soup = BeautifulSoup(web_data.content, 'lxml')
    a_tags = soup.find_all('a')

    href_list = []
    for a_tag in a_tags:
        href = a_tag.get('href')
        if href:
            print(a_tag.get('href'))
            href_list.append(href)
    print(href_list)
    return href_list


page_url = 'http://www.itdecent.cn/p/40fc848414ea'
get_href(page_url=page_url)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,802評(píng)論 25 709
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流,請(qǐng)勿用于任何商業(yè)用途! 一、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下,閱讀本文...
    Bruce_Szh閱讀 12,988評(píng)論 6 28
  • 當(dāng)我打開(kāi)電腦,打算著筆寫(xiě)下各中脈絡(luò)的時(shí)候,才意識(shí)到戀人的名字是被施了魔咒的。哪怕你們之間已經(jīng)沒(méi)有任何關(guān)系了,也任沒(méi)...
    囚先生閱讀 1,593評(píng)論 0 1
  • 今天,媽媽和爺爺帶我去醫(yī)院拔牙。給我拔牙的是一位阿姨,媽媽抱我躺到椅子上,我把嘴巴張大,阿姨拿了棉花涂了牙齒...
    小哈妹閱讀 193評(píng)論 0 1
  • D24. 瘋帽先生群-34-康康 十塊錢(qián)可以買(mǎi)很多種東西,何況是中國(guó)制造往中國(guó)創(chuàng)造的路上。所以。。。。。。
    Mable康康閱讀 248評(píng)論 0 0

友情鏈接更多精彩內(nèi)容