正如 HTTrack 的官方網(wǎng)站上講的:該工具可以幫你把網(wǎng)站內(nèi)容從服務器下載到本地的某個目錄下,遞歸的保存所有的目錄、HTML、圖片、其它文件等。這邊文章,我們將使用 HTTrack 下載一個完整的站點。
實施步驟
首先,打開我們的漏洞靶機:Vulnerable_VM 【配置參見:測試環(huán)境搭建】
Kali 中默認沒有 HTTrack 軟件(最新版的有),因此我們需要先安裝下:
root@kali:~# apt-get install httrack
創(chuàng)建站點下載保存目錄,進入目錄,開始下載(最簡單的使用方法就是后面跟目標站點的URL):
root@kali:~/test_crawler# mkdir bodgeit_httrack
root@kali:~/test_crawler# cd bodgeit_httrack
root@kali:~/test_crawler/bodgeit_httrack# httrack http://192.168.150.143/bodgeit/
WARNING! You are running this program as root!
It might be a good idea to run as a different user
Mirror launched at 23:24:13 by HTTrack Website Copier/3.48-21 [XR&CO'2014]
mirroring http://192.168.150.143/bodgeit/ with the wizard help..
Done.: 192.168.150.143/bodgeit/advanced.jsp (3027 bytes) - 500
Thanks for using HTTrack!
注意:URL最后的 “/” 不能省略,否則會返回 404,Server的根目錄沒有文件 bodgeit。
直接從本地離線訪問下載的站點:

訪問下載到本地的網(wǎng)站
總結(jié)
HTTrack下載的是站點的靜態(tài)拷貝,一切動態(tài)內(nèi)容都無法獲取,如用戶輸入的響應信息。實際下載到的內(nèi)容如下:
- 一個以站點名稱或地址命名的目錄,里面包含下載的所有文件。
- cookies.txt 文件(包含下載站點時所用的cookies信息)
- hts-cache 目錄(包含Crawler檢測到的待下載文件清單,該清單后續(xù)會由HTTrack處理)
- hts-log.txt 文件(包含爬取和下載站點時的錯誤、告警和其他信息)
- index.html 文件(指向下載站點的原始index.html文件)
除了以上介紹的基本用法外,還可以跟定制化參數(shù)實現(xiàn)更高級的功能:
- -rN:設(shè)置爬取深度
- -%eN:設(shè)置爬取的外部鏈接的深度
- +[pattern]:根據(jù)pattern設(shè)置白名單,如 +baidu.com/
- -[pattern]:根據(jù)pattern設(shè)置黑名單,跳過下載的URL
- -F [user-agent]:指定下載時使用的user-agent
更對幫助信息請參考:
root@kali:~# httrack --help