動(dòng)手學(xué)爬蟲(1):從熟悉網(wǎng)頁結(jié)構(gòu)開始

爬蟲第一課:熟悉網(wǎng)頁!

1.認(rèn)識(shí)網(wǎng)頁

簡(jiǎn)單來說,網(wǎng)頁由三種元素組成:一是html結(jié)構(gòu):即哪個(gè)區(qū)域放置哪些內(nèi)容;二是css樣式:即每個(gè)區(qū)域顯示成什么樣子;三是script語句(這部分可能和網(wǎng)頁內(nèi)的內(nèi)容調(diào)度有關(guān),暫時(shí)不太熟悉)。
要做爬蟲,熟悉網(wǎng)頁的html結(jié)構(gòu)是十分必要的。

作業(yè).png

上圖中的<div></div>,<li></li>等部分即是html中的區(qū)域、列表等結(jié)構(gòu)。

2.模仿寫一個(gè)網(wǎng)頁

模仿目標(biāo)如下圖:

目標(biāo)作業(yè).png

由于主體直接引用了老師提供的css樣式,此部分只需把html結(jié)構(gòu)、填充的內(nèi)容寫清楚即可,完成代碼如下:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>The blah</title>
    <link rel="stylesheet" type = "text/css" href = "homework.css">
</head>
<body>
    <div class="header">
        <img src= "images/blah.png" >
        <ul class="nav">
            <li><a href="##">Home</a></li>
            <li><a href="www.baidu.com">Site</a></li>
            <li><a href="##">Other</a></li>
        </ul>
    </div>
    <div class="main-content">
        <h2>The Beach</h2>
        <hr />
        <ul class="photos">
            <li>
                <img src="images/0001.jpg" width="150" height="150">
            </li>
            <li>
                <img src="images/0002.jpg" width="150" height="150">
            </li>
            <li>
                <img src="images/0003.jpg" width="150" height="150">
            </li>
        </ul>
        <li>
            Donald Trump's tax plan:
        1. Cut taxes for the wealthiest Americans
        2. Saddle the rest of the country with the debt
        </li>
    </div>
    <div class="footer">
        <p>&copy;feichaishe</p>
    </div>
</body>
</html>

最終效果與目標(biāo)網(wǎng)頁一致:

作業(yè)結(jié)果.png

3.總結(jié)

寫網(wǎng)頁和寫爬蟲是兩個(gè)互逆的過程:寫一個(gè)簡(jiǎn)單的網(wǎng)頁有助于理解網(wǎng)頁的結(jié)構(gòu)分布,理解我們平時(shí)所見的網(wǎng)頁是如何生成的,也就知道我們想要爬取的內(nèi)容處于網(wǎng)頁中的什么位置。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 問答題47 /72 常見瀏覽器兼容性問題與解決方案? 參考答案 (1)瀏覽器兼容問題一:不同瀏覽器的標(biāo)簽?zāi)J(rèn)的外補(bǔ)...
    _Yfling閱讀 14,168評(píng)論 1 92
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,192評(píng)論 25 708
  • ?前端面試題匯總 一、HTML和CSS 21 你做的頁面在哪些流覽器測(cè)試過?這些瀏覽器的內(nèi)核分別是什么? ...
    Simon_s閱讀 2,377評(píng)論 0 8
  • 可能隨著年齡的增長(zhǎng),好多事情,變成了你生活的重心,年少時(shí),踢塊石子是快樂,拾朵野花是快樂,用泥巴捏小人是快...
    暖融融_542f閱讀 213評(píng)論 2 2
  • 暗戀像一場(chǎng)春雨 它窺視著你的秘密 又滋潤(rùn)著你的心緒 以前 你都打著傘 如今 你丟掉這把傘 開始想嘗嘗這雨的味道
    袁雅玲閱讀 259評(píng)論 0 0

友情鏈接更多精彩內(nèi)容