一、實(shí)驗(yàn)?zāi)康暮鸵?/b>:
爬取川大公共管理學(xué)院網(wǎng)站新聞欄里的鏈接,進(jìn)而獲取詳情頁信息。
二、實(shí)驗(yàn)步驟:
(1)分析被采集對(duì)象:公共管理學(xué)院網(wǎng)站新聞欄里的新聞標(biāo)題以及詳情頁的文本信息等。

利用開發(fā)者工具,我們可以查看標(biāo)題鏈接代碼

在linux配置好scrapy的前提下,每次使用需要先激活虛擬環(huán)境

cd /home/slx/venv //進(jìn)入venv虛擬環(huán)境的目錄
source bin/activate //激活
(2)創(chuàng)建一個(gè)新的Scrapy項(xiàng)目,運(yùn)行下列命令
# scrapy startproject newsbox
(3)定義item


(4)編寫爬蟲
設(shè)置完items之后,在spiders目錄下新建一個(gè)ggglnews.py文件,代碼如下:

(5)運(yùn)行命令,得到數(shù) 據(jù),并得到命名為ggglnews的xml文件
scrapy crawl ggglnews -o ggglnews.xml

截取部分內(nèi)容顯示如下:在終端顯示的內(nèi)容

三、實(shí)驗(yàn)結(jié)果:
爬取到的十二條item數(shù)據(jù)對(duì)應(yīng)新聞欄的十二條新聞消息


四、討論和分析:
過程中遇到的難點(diǎn):定位元素并利用xpath進(jìn)行路徑選擇