最近在用python寫(xiě)爬蟲(chóng),剛開(kāi)始使用的是PhantomJS,單線程下支持不錯(cuò),但是在多線程下效果差,而且會(huì)存在一些內(nèi)存泄露的問(wèn)題,下圖是stackoverflow上的一些評(píng)論:

image.png
由于考慮分布式,所以chrome效率會(huì)比PhantomJS高不少,但是chrome如果開(kāi)界面的話太吃內(nèi)存了。那么有什么辦法能夠是chrome不打開(kāi)界面呢?
我在網(wǎng)上查了一種說(shuō)法是用:Python的pyvirtualdisplay庫(kù)就能引入虛擬界面。而我實(shí)際用了一下并不管用。最后Google了下找到一種新的辦法:
chromeOptions = webdriver.ChromeOptions()
chromeOptions.add_argument('headless')
chromeOptions.add_argument('window-size=1200x600')
driver = webdriver.Chrome(chrome_options=chromeOptions)
搞定!
PS:headless會(huì)導(dǎo)致一些比如element not visble的問(wèn)題,記得在getURL之后driver.set_window_size(1024, 768)