1.web的標(biāo)準(zhǔn)三層結(jié)構(gòu) 結(jié)構(gòu)(html):用于對(duì)網(wǎng)頁(yè)元素進(jìn)行整理和分類(lèi)-- 好比人的身體 表現(xiàn)(css):用于設(shè)置網(wǎng)頁(yè)元素的版式,顏色,大小...
1.web的標(biāo)準(zhǔn)三層結(jié)構(gòu) 結(jié)構(gòu)(html):用于對(duì)網(wǎng)頁(yè)元素進(jìn)行整理和分類(lèi)-- 好比人的身體 表現(xiàn)(css):用于設(shè)置網(wǎng)頁(yè)元素的版式,顏色,大小...
一.機(jī)器學(xué)習(xí)開(kāi)發(fā)流程 1.獲取數(shù)據(jù) (公司本身就有,合作過(guò)來(lái)的數(shù)據(jù),購(gòu)買(mǎi)的數(shù)據(jù)) 2.數(shù)據(jù)的基本處理:pd去處理(缺失值,合并表。。。) 3.特征工程(特征進(jìn)行處理)(重要)...
scikit-learn庫(kù)介紹 一.特征抽取的API都在sklearn.feature_extraction中 1.字典數(shù)據(jù)的特征抽取 fromskle...
Scrapy-Redis在scrapy的基礎(chǔ)上實(shí)現(xiàn)了更多,更強(qiáng)大的功能,具體體現(xiàn)在:request去重,爬蟲(chóng)持久化,和輕松實(shí)現(xiàn)分布式
Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架,我們只需要寫(xiě)少量的代碼,就能夠快速的抓取 Scrapy 使用了Twisted異步網(wǎng)絡(luò)框架,可以加快我們的下...
url不變,驗(yàn)證碼不變 請(qǐng)求驗(yàn)證碼的地址,獲取響應(yīng),識(shí)別 url不變,驗(yàn)證碼會(huì)變 思路:對(duì)方服務(wù)器返回驗(yàn)證碼的時(shí)候,回和每個(gè)用戶的信息和驗(yàn)證碼進(jìn)行對(duì)應(yīng),之后,...
Selenium Selenium是一個(gè)Web的自動(dòng)化測(cè)試工具,最初為網(wǎng)站自動(dòng)化測(cè)試而開(kāi)發(fā)的,Selenium可以直接運(yùn)行在瀏覽器上,它支持所有主流的瀏覽器(包括Phanto...
1.準(zhǔn)備url 準(zhǔn)備start_url 1.url地址規(guī)律不明顯,總數(shù)不確定 2.通過(guò)代碼提取下一頁(yè)的url ...
數(shù)據(jù)提取的定義 數(shù)據(jù)提取就是從的響應(yīng)中提取我們想要的數(shù)據(jù)的過(guò)程 數(shù)據(jù)分類(lèi) 1.非結(jié)構(gòu)化數(shù)據(jù):html等 處理方法:正則表達(dá)式,xpath 2.結(jié)構(gòu)化數(shù)據(jù):json,xml等 ...
節(jié)點(diǎn)選擇語(yǔ)法 / 從根節(jié)點(diǎn)選取,獲取標(biāo)簽下的文本用text(),例如:a/text() 獲取a下的文本 a//text() 獲取a下的所有標(biāo)簽的文本 //a[text()=...
爬蟲(chóng)定義 網(wǎng)絡(luò)爬蟲(chóng)(又叫網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人)就是模擬客戶端發(fā)送網(wǎng)絡(luò)請(qǐng)求,接受請(qǐng)求響應(yīng),一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序 只要瀏覽器能做的事情,原則上,爬蟲(chóng)都能...
MongoDB的優(yōu)勢(shì) 1.易擴(kuò)展,這也是非關(guān)系數(shù)據(jù)庫(kù)共有的優(yōu)勢(shì) 2.大數(shù)據(jù)量,高性能,非常高的讀寫(xiě)性能 ...
服務(wù)器端安裝 1.sudo apt-get install mysql-server 2.sudo service mysql start 啟...
軍規(guī)適用場(chǎng)景:并發(fā)量大、數(shù)據(jù)量大的互聯(lián)網(wǎng)業(yè)務(wù) 軍規(guī):介紹內(nèi)容 解讀:講解原因,解讀比軍規(guī)更重要 一、基礎(chǔ)規(guī)范 (1)必須使用 InnoDB 存儲(chǔ)引擎 解讀:支持事務(wù)、行級(jí)鎖、...
Redis基本介紹 Redis是一個(gè)開(kāi)源的使用C語(yǔ)言編寫(xiě),支持網(wǎng)絡(luò),可基于內(nèi)存亦可持久化的日志型,Key-Value數(shù)據(jù)庫(kù),并提供多種語(yǔ)言的API Redis特性...
關(guān)系型數(shù)據(jù)庫(kù) 指采用了關(guān)系模型來(lái)組織數(shù)據(jù)的數(shù)據(jù)庫(kù) ,關(guān)系模型是指二維表格模型 關(guān)系型數(shù)據(jù)庫(kù)優(yōu)點(diǎn) 1.容易理解:二維表結(jié)構(gòu)是非常貼近邏輯世界一個(gè)...