一、簡介 1、數(shù)據(jù)獲取 我是直接在這里下載數(shù)據(jù)[https://www.datafountain.cn/datasets/196],這個(gè)網(wǎng)站還有類型的數(shù)據(jù),總體還是比較全面的...
一、簡介 1、數(shù)據(jù)獲取 我是直接在這里下載數(shù)據(jù)[https://www.datafountain.cn/datasets/196],這個(gè)網(wǎng)站還有類型的數(shù)據(jù),總體還是比較全面的...
一、前言 其實(shí)爬取頁面的思路都差不多,觀察爬取頁面源碼,獲取頁面內(nèi)容,根據(jù)源碼的格式規(guī)律將自己需要的內(nèi)容提取出來,提取后美化輸出或者保存!之前寫過了如何爬取淘寶和京東的評(píng)論,...
一、前言 寫這個(gè)文章將自己在安裝pyinstaller時(shí)所踩過的坑和解決方法記錄一下,方便以后查閱! 先說一下自己的問題: 已經(jīng)使用pip install pyinstall...
一、前言 有了之前爬取淘寶評(píng)論的基礎(chǔ),我想如果換個(gè)URL和cookie等參數(shù)是不是一套一個(gè)準(zhǔn),然后就跑去京東測(cè)試了一下,結(jié)果失敗了!因?yàn)轫撁婢幋a不一樣所以爬取淘寶所用的正則化...
一、前言 淘寶的反爬比較嚴(yán)格,且淘寶協(xié)議好像不允許爬取它的評(píng)論,我查了一下好像也不建議直接用自己的淘寶號(hào)去爬取(好像有封號(hào)風(fēng)險(xiǎn)),我在測(cè)試的時(shí)候,可能是太頻繁了淘寶賬號(hào)被強(qiáng)制...
主動(dòng)學(xué)習(xí) 利用訓(xùn)練集中已標(biāo)記的樣本訓(xùn)練一個(gè)模型,利用這個(gè)模型隨機(jī)的選取一個(gè)未標(biāo)記樣本,通過與外界交互得到該樣本的標(biāo)記,然后加入已標(biāo)記數(shù)據(jù)重新訓(xùn)練一個(gè)模型,不斷的重復(fù)上述過程,...
上一章我們提到了維度災(zāi)難,維度災(zāi)難會(huì)導(dǎo)致距離計(jì)算困難和樣本稀疏等問題,緩解維度災(zāi)難的兩個(gè)主要方法,一個(gè)就是降維上一章已經(jīng)介紹過了,這一章主要介紹另一種方法特征選擇。 11.1...
這一章全是理論知識(shí)和公式,個(gè)人感覺有點(diǎn)難。這一章主要介紹了計(jì)算學(xué)習(xí)理論,即如何判斷一個(gè)算法能否得到目標(biāo)概念類,針對(duì)一個(gè)算法得到的假設(shè)空間分為有限和無限,而有限分為兩種情形為可...