引言
在Windows下有個(gè)叫做"整站下載器"的軟件,可以用來抓取網(wǎng)站的數(shù)據(jù)下載到本地,而Linux上只需要用到我們平時(shí)最常用的命令行下載器Wget,就能完成整個(gè)網(wǎng)站數(shù)據(jù)的下載操作。
文章目錄
- 0×1.使用Wget實(shí)現(xiàn)整站下載
- 0×2.僅下載指定后綴的文件
- 0×3.不下載指定后綴的文件
0×1.使用Wget實(shí)現(xiàn)整站下載
下載整站數(shù)據(jù),只需一條簡(jiǎn)單的命令:
#下面的命令會(huì)在終端所在目錄創(chuàng)建一個(gè)www.qingsword.com目錄,將網(wǎng)站www.qingsword.com上的數(shù)據(jù)全部下載到這個(gè)目錄中
qing@qingsword.com$ wget -rck -np www.qingsword.com
#對(duì)應(yīng)參數(shù)解釋:
#-r,遞歸下載
#-c,斷點(diǎn)續(xù)傳,若網(wǎng)站長(zhǎng)時(shí)間未響應(yīng)或中途斷開,此參數(shù)可以讓數(shù)據(jù)斷點(diǎn)續(xù)傳
#-k,轉(zhuǎn)換鏈接為本地鏈接
#-np,--no-parent不追溯至父級(jí)
0×2.僅下載指定后綴的文件
#參數(shù)-A指定,僅下載png與css后綴的文件,網(wǎng)站中其他類型的文件將不會(huì)被下載
qing@qingsword.com$ wget -rck -np -A '*.png','*.css' www.qingsword.com
0×3.不下載指定后綴的文件
#參數(shù)-R指定,除了html以及css后綴的文件外,下載其余所有文件
qing@qingsword.com$ wget -rck -np -R '*.html','*.css' www.qingsword.com