Python 爬蟲第二步 -- 單線程爬蟲

介紹

本篇文章主要介紹如何爬取麥子學(xué)院的課程信息(本爬蟲仍是單線程爬蟲),在開始介紹之前,先來(lái)看看結(jié)果示意圖

這里寫圖片描述
怎么樣,是不是已經(jīng)躍躍欲試了?首先讓我們打開麥子學(xué)院的網(wǎng)址,然后找到麥子學(xué)院的全部課程信息,像下面這樣
這里寫圖片描述
這個(gè)時(shí)候進(jìn)行翻頁(yè),觀看網(wǎng)址的變化,首先,第一頁(yè)的網(wǎng)址是 http://www.maiziedu.com/course/list/, 第二頁(yè)變成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三頁(yè)變成了 http://www.maiziedu.com/course/list/all-all/0-3/ ,可以看到,每次翻一頁(yè),0后面的數(shù)字就會(huì)遞增1,然后就有人會(huì)想到了,拿第一頁(yè)呢?我們嘗試著將 http://www.maiziedu.com/course/list/all-all/0-1/ 放進(jìn)瀏覽器的地址欄,發(fā)現(xiàn)可以打開第一欄,那就好辦了,我們只需要使用 re.sub() 就可以很輕松的獲取到任何一頁(yè)的內(nèi)容。獲取到網(wǎng)址鏈接之后,下面要做的就是獲取網(wǎng)頁(yè)的源代碼,首先右擊查看審查或者是檢查元素,就可以看到以下界面
這里寫圖片描述
找到課程所在的位置以后,就可以很輕松的利用正則表達(dá)式將我們需要的內(nèi)容提取出來(lái),至于怎么提取,那就要靠你自己了,嘗試著自己去找規(guī)律才能有更大的收獲。如果你實(shí)在不知道怎么提取,那么繼續(xù)往下,看我的源代碼吧

實(shí)戰(zhàn)源代碼

  # coding=utf-8
  import re
  import requests
  import sys
  reload(sys)
  sys.setdefaultencoding("utf8")


  class spider():
      def __init__(self):
          print "開始爬取內(nèi)容。。。"

       def changePage(self, url, total_page):
          nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
          pagegroup = []

          for i in range(nowpage, total_page + 1):
              link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
              pagegroup.append(link)

          return pagegroup

def getsource(self, url):
    html = requests.get(url)
    return html.text

def getclasses(self, source):
    classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
    return classes

def geteach(self, classes):
    eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
    return eachclasses

def getinfo(self, eachclass):
    info = {}
    info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1)
    info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1)
    return info

def saveinfo(self, classinfo):
    f = open('info.txt', 'a')

    for each in classinfo:
        f.writelines('title : ' + each['title'] + '\n')
        f.writelines('people : ' + each['people'] + '\n\n')

    f.close()


if __name__ == '__main__':

      classinfo = []
      url = 'http://www.maiziedu.com/course/list/all-all/0-1/'
      maizispider = spider()
      all_links = maizispider.changePage(url, 30)
      for each in all_links:
         htmlsources = maizispider.getsource(each)
          classes = maizispider.getclasses(htmlsources)
          eachclasses = maizispider.geteach(classes)

          for each in eachclasses:
              info = maizispider.getinfo(each)
              classinfo.append(info)

      maizispider.saveinfo(classinfo)

以上代碼并不難懂,基本就是正則表達(dá)式的使用,然后直接運(yùn)行就可以看到開頭我們的截圖內(nèi)容了,由于這是單線程爬蟲,所以運(yùn)行速度感覺(jué)有點(diǎn)慢,接下來(lái)還會(huì)繼續(xù)更新多線程爬蟲。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)提取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、...
    whenif閱讀 18,311評(píng)論 45 523
  • 真正會(huì)說(shuō)話的人,她首先能夠用語(yǔ)言這一武器保護(hù)好自己,在此基礎(chǔ)上,用語(yǔ)言愉悅他人、營(yíng)造能量場(chǎng),讓自己周圍的氣氛...
    穎仔心隨閱讀 227評(píng)論 0 0
  • mark: Mac性能優(yōu)化
    楊大蝦閱讀 1,400評(píng)論 0 0
  • 昨天得到上聽(tīng)到一條醫(yī)學(xué)新聞,大概的意思是經(jīng)常跑步的人不僅身體健康,而且心理更健康,這是國(guó)外的一個(gè)專家組通過(guò)上萬(wàn)人的...
    曉多閱讀 4,438評(píng)論 24 31
  • 導(dǎo)語(yǔ):嗨,大家好,我是一個(gè)普通的點(diǎn)融投資者,也是一個(gè)普通的點(diǎn)融產(chǎn)品汪。我今天打算講一下我為什么選擇了有點(diǎn)融的生活。...
    點(diǎn)融黑幫閱讀 607評(píng)論 2 6

友情鏈接更多精彩內(nèi)容