實(shí)驗(yàn)報(bào)告:采集川大公共管理學(xué)院新聞欄信息


一、實(shí)驗(yàn)?zāi)康暮鸵?/b>:

爬取川大公共管理學(xué)院網(wǎng)站新聞欄里的鏈接,進(jìn)而獲取詳情頁信息。

二、實(shí)驗(yàn)步驟

(1)分析被采集對(duì)象:公共管理學(xué)院網(wǎng)站新聞欄里的新聞標(biāo)題以及詳情頁的文本信息等。

利用開發(fā)者工具,我們可以查看標(biāo)題鏈接代碼


在linux配置好scrapy的前提下,每次使用需要先激活虛擬環(huán)境

cd /home/slx/venv //進(jìn)入venv虛擬環(huán)境的目錄

source bin/activate //激活

(2)創(chuàng)建一個(gè)新的Scrapy項(xiàng)目,運(yùn)行下列命令

# scrapy startproject newsbox

(3)定義item

(4)編寫爬蟲

設(shè)置完items之后,在spiders目錄下新建一個(gè)ggglnews.py文件,代碼如下:


(5)運(yùn)行命令,得到數(shù) 據(jù),并得到命名為ggglnews的xml文件

scrapy crawl ggglnews -o ggglnews.xml

截取部分內(nèi)容顯示如下:在終端顯示的內(nèi)容

三、實(shí)驗(yàn)結(jié)果

爬取到的十二條item數(shù)據(jù)對(duì)應(yīng)新聞欄的十二條新聞消息

四、討論和分析

過程中遇到的難點(diǎn):定位元素并利用xpath進(jìn)行路徑選擇

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容