亚洲噜噜天堂无码,五区六区黑人无码日本

python版本：2.7.10
學(xué)習(xí)python爬蟲(chóng)，首先寫(xiě)了一個(gè)爬取百度貼吧圖片的程序。參考了靜覓的系列博客

好了，先上代碼：

# -*- coding : utf-8 -*-
import urllib
import urllib2
import re


class imgTest:

    def __init__(self, baseUrl, seeLZ):
        self.baseUrl = baseUrl
        self.seeLZ = '?see_lz='+str(seeLZ)
        # self.tool = Tool()
    #save a single img 
    def saveImg(self,imageURL,filename):
        u = urllib.urlopen(imageURL)
        data = u.read()
        f = open(filename,'wb')
        f.write(data)
        f.close()
    #download images
    def saveImgs(self, images, name, num):
        number = num
        for imageURL in images:
            splitPath = imageURL.split('.')
            fTail = splitPath.pop()
            if len(fTail)>3:
                fTail = "jpg"
            fileName = name+"/"+str(number)+"."+fTail
            self.saveImg(imageURL,fileName)
            number += 1
    #get img urls       
    def getAllImageURLs(self,pageNum):
        page = self.getPage(pageNum)        
        patternImg = re.compile(r'<img class="BDE_Image" pic_type="0".*?src="(.+?\.jpg)" pic_ext="jpeg"')
        images = re.findall(patternImg, page)
        for item in images:
            print item
            self.printToLog("".join(item))
            # print("\n\n")
        return images
    #print to log.txt
    def printToLog(self,mystr):
        f = open('txt/log.txt', 'a')
        # f = open('txt/log.txt')
        f.write(mystr+"\n")
        f.close()

    #get the title of the bbs
    def getTitle(self):
        page = self.getPage(1)
        pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)
        result = re.search(pattern, page)
        if result:
            self.printToLog("bbs title:"+result.group(1))
            return result.group(1).strip()
        else:
            return None
    #get the total number of the tiezi
    def getPageNum(self):
        page = self.getPage(1)
        pattern = re.compile('<li class="l_reply_num".*?<span .*?</span>.*?<span.*?>(.*?)</span>',re.S)
        result = re.search(pattern, page)
        if result:
            self.printToLog("page total num:"+result.group(1))
            return result.group(1).strip()
        else:
            return None
    #get the html source code
    def getPage(self, pageNum):
        
        try:
            url = self.baseUrl+self.seeLZ +'&pn='+str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request)
            content = response.read()
            return content
        except urllib2.URLError, e:
            if hasattr(e, "reason"):
                print "failed to connect baidutieba.",e.reason
                return None

baseURL = 'http://tieba.baidu.com/p/3925387672'
imgtest = imgTest(baseURL,1)
totalnum = int(imgtest.getPageNum())

imageCount = 0
for i in range(1, totalnum+1):
    imageURLs = imgtest.getAllImageURLs(i)
    imgtest.saveImgs(imageURLs,"pic",imageCount)
    imageCount += len(imageURLs)
    print imageCount

由于我的sublime Text有一點(diǎn)編碼問(wèn)題我還沒(méi)來(lái)及管，所以函數(shù)的注釋就用英文注釋了（好像只有我能看懂）。最關(guān)鍵的一步就是getAllImageURLs這個(gè)函數(shù)了，需要從網(wǎng)頁(yè)中抽取到圖片的url，學(xué)好正則表達(dá)式真的很重要啊。還有一點(diǎn)，就是我發(fā)現(xiàn)百度貼吧的帖子里的圖片url格式不太一樣，不同的帖子要具體的分析過(guò)才行的哦，不過(guò)呢，這個(gè)正則表達(dá)式只要稍作修改就可以滿(mǎn)足要求了。

OK，我要去爬本漫畫(huà)書(shū)來(lái)看咯：)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python爬取百度貼吧的圖片1

python爬取百度貼吧的圖片1

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python爬取百度貼吧的圖片1

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av