crawl 概念

通用爬蟲

百度、谷歌、360、必應、搜狗
搜索引擎
工作內容:將互聯網上所有的數據抓取下來,給用戶提供檢索服務
只要是網上的數據就能抓取嗎?
博客,放到網上,百度就能抓取
(1)主動提交你的url
(2)網站設置友情鏈接
(3)百度會和DNS服務商合作

聚焦爬蟲

根據特定的需求從指定的url抓取數據,聚焦爬蟲
總體思路:
(1)給我一個url
(2)向這個url發(fā)送請求,得到響應(html)
(3)解析內容,提取指定數據
(4)保存起來,文件、數據庫中等

robots協議

robots協議:用來限制搜索引擎抓取的,協議中規(guī)定讓抓取哪些,不讓抓取哪些。百度能不能不遵從。君子協議,口頭協議

herf詳解

http://www.baidu.com:80/index.html?username=goudan&password=123#lala
協議 主機 端口號 文件資源 get參數 錨點

http協議與https的區(qū)別

https://www.cnblogs.com/wqhwe/p/5407468.html
HTTPS和HTTP的區(qū)別主要如下:   
1、https協議需要到ca申請證書,一般免費證書較少,因而需要一定費用。   
2、http是超文本傳輸協議,信息是明文傳輸,https則是具有安全性的ssl加密傳輸協議。   
3、http和https使用的是完全不同的連接方式,用的端口也不一樣,前者是80,后者是443。
4、http的連接很簡單,是無狀態(tài)的;HTTPS協議是由SSL+HTTP協議構建的可進行加密傳輸、身份認證的網絡協議,比http協議安全。
目前網站都是https的,都兼容也可以使用http
公鑰-私鑰,成對出現的,加密的時候需要秘鑰,解密的時候需要秘鑰
非對稱加解密,你用公鑰加密的數據,只能通過私鑰解密,你用私鑰加密的東西,只能通過公鑰解密

http協議的原理(圖解http協議) https://www.cnblogs.com/10158wsj/p/6762848.html

http請求:請求行、請求頭、請求體
請求行:請求方式、請求資源、協議版本號

get/post

(1)get是獲取數據,post是提交數據
(2)帶參數,get會將參數拼接到url的后面,post不在url里面,相對來說,get沒有post安全
(3)get參數有限制,post參數沒有限制

請求頭

accept:瀏覽器通過這個頭告訴服務器,它所支持的數據類型
  Accept-Charset: 瀏覽器通過這個頭告訴服務器,它支持哪種字符集
  Accept-Encoding:瀏覽器通過這個頭告訴服務器,支持的壓縮格式
  Accept-Language:瀏覽器通過這個頭告訴服務器,它的語言環(huán)境
  Host:瀏覽器通過這個頭告訴服務器,想訪問哪臺主機
  If-Modified-Since: 瀏覽器通過這個頭告訴服務器,緩存數據的時間
  Referer:瀏覽器通過這個頭告訴服務器,客戶機是哪個頁面來的 防盜鏈

664.jpg
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容