認證 權(quán)限 節(jié)流 版本 解析器
什么是代理? 代理就是代理服務(wù)器(proxy server),存在的目的:代理網(wǎng)絡(luò)用戶訪問服務(wù)器獲取數(shù)據(jù) 為什么使用代理? 因為在爬蟲爬取數(shù)據(jù)的...
Scrapy是用純python實現(xiàn)一個為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛 Scrapy架構(gòu)圖(綠線是數(shù)據(jù)流向):im...
什么是xpath? 什么是xml? xpath語法的路徑表達式(常用) bs4_usod(Beautifulsoup4)? 方法
什么是pyquery? find(selector) : 使用css選擇器查找filter(selector) : 根據(jù)id或者class過濾節(jié)...
urllib庫的基本使用 所謂網(wǎng)頁抓取,就是把URL地址中指定的網(wǎng)絡(luò)資源從網(wǎng)絡(luò)流中讀取出來,保存到本地。 urllib的模塊: request:...
七層協(xié)議的目的: 實現(xiàn)不同的系統(tǒng)互聯(lián)之間的數(shù)據(jù)通訊,實現(xiàn)數(shù)據(jù)的傳輸. 七層協(xié)議分為: 應(yīng)用層 表示層 會話程 傳輸層 網(wǎng)絡(luò)層 數(shù)據(jù)鏈路層 物理層...
爬蟲: 以上平臺或者機構(gòu)不能夠提供我們需要的數(shù)據(jù),這時就需要爬蟲工程師,根據(jù)需求從互聯(lián)網(wǎng)上抓取數(shù)據(jù)? 什么是爬蟲? 就是一段自動抓取互聯(lián)網(wǎng)數(shù)據(jù)的...
正則表達式1, 正則表達式的寫法:var re=new RegExp('規(guī)則', '可選參數(shù)');var re=/規(guī)則/參數(shù);2、規(guī)則中的字符1...