聲明
此博客在簡(jiǎn)書創(chuàng)作,作者為海內(nèi)尋知己,其他站點(diǎn)有相同文章屬抄襲行為,請(qǐng)支持原創(chuàng)
介紹
小伙伴們?cè)诖罅渴褂镁W(wǎng)絡(luò)資源時(shí)會(huì)需要編寫爬蟲,現(xiàn)在國(guó)內(nèi)大部分編寫爬蟲使用的是python,博主沒有使用過(guò)python語(yǔ)言,自己寫爬蟲使用的是ruby.在此記錄一下如何使用ruby編寫功能強(qiáng)大、使用方便的爬蟲。
前期準(zhǔn)備
ruby編程環(huán)境(這個(gè)rubychina網(wǎng)站wiki里有詳細(xì)的教程
使用的ruby工具(各個(gè)gem)
Nokogiri,byebug(調(diào)試用),mechanize
Let's go
首先前往機(jī)鋒市場(chǎng)觀察下:

屏幕截圖 2017-01-08 20:46:43.png
確定市場(chǎng)url:http://apk.gfan.com
我們使用機(jī)鋒的搜索功能下載相關(guān)的app,確定它的搜索url(http://apk.gfan.com/search/學(xué)習(xí)_2.shtml):

屏幕截圖 2017-01-08 20:48:42.png
編碼起來(lái):
require 'nokogiri'
require 'open-uri'
require 'byebug'
require 'mechanize'
def download_app(app)
begin
detail_url = URI.escape(app.css('a').attr('href').text)
doc = Nokogiri::HTML(open(detail_url))
download_url = URI.escape(doc.css('#computerLoad').attr('href').text)
agent = Mechanize.new
file=agent.get(download_url,nil,referer=detail_url)
file_name = file.filename
File.open(file_name,"w") {|f| f.write file.body}
return 1
rescue Exception => e
puts 'Download app Exception: '+e.message
end
return 0
end
begin
base_url = 'http://apk.gfan.com'
keyword = '學(xué)習(xí)'
page = 1
count = 5
download_count = 0
loop do
search_url = URI.escape("#{base_url}/search/#{keyword}_#{page}.shtml")
doc = Nokogiri::HTML(open(search_url))
app_list = doc.css('.lp-app-list li')
break if app_list.length == 0
app_list.each do |app|
download_count += download_app(app)
break if download_count >= count
end
break if download_count >= count
page += 1
end
rescue Exception => e
puts 'Main method Exception: '+e.message
end