在线观看操B片,做暧暧超长免费看,思思热91

我很喜歡許嵩的音樂，我以前基本上他的每首歌都會(huì)唱，比如《素顏》、《灰色頭像》、《玫瑰花的葬禮》、《清明雨上》、《廬州月》等等，打開播放器，基本上都是循環(huán)播放許嵩的歌，簡直欲罷不能！

這次我就來爬取許嵩的所有新浪微博，我打算之后把許嵩音樂的網(wǎng)易云評(píng)論都爬取下來，現(xiàn)在水平還不夠，暫時(shí)爬個(gè)微博玩玩。

分析網(wǎng)頁：

先打開許嵩的微博首頁：

現(xiàn)在微博的內(nèi)容都是采用Ajax的加載方式，形象描述就是：我們不停的往下翻微博，它是動(dòng)態(tài)加載出來的下一頁，而頁面URL沒有改變。

鼠標(biāo)右鍵—檢查—選擇network—選擇XHR選項(xiàng)卡，這里面就是Ajax動(dòng)態(tài)加載出來的內(nèi)容。

我不停的下滑鼠標(biāo)，看XHR選項(xiàng)卡的變化：

點(diǎn)擊其中一個(gè)包，查看它的headers信息:

這個(gè)就是我們用來構(gòu)造URL的參數(shù)，還好都沒加密，我才能爬下來，否則我就不會(huì)了。多點(diǎn)開幾個(gè)包查看這些參數(shù)，我們發(fā)現(xiàn)這幾個(gè)參數(shù)都沒有變，這就好辦了。

接著查看返回的源代碼：

這里，每條微博信息都是在data標(biāo)簽下的cards標(biāo)簽下，每一頁共有10條微博，total表示共有395條微博，page是當(dāng)前頁數(shù)，可以通過修改page達(dá)到翻頁的效果。

點(diǎn)開mblog標(biāo)簽，attitudes_count是點(diǎn)贊數(shù)，comments_count是評(píng)論數(shù)，reposts_count是轉(zhuǎn)發(fā)數(shù)，text是微博文本信息，id是每條微博攜帶的一個(gè)編號(hào)

image

分析到這里就可以寫代碼了。

完整代碼

完整代碼如下：

from urllib.parse import urlencode
import requests
from pyquery import PyQuery as pq    
from pymongo import MongoClient
import time


base_url = 'https://m.weibo.cn/api/container/getIndex?'

headers = {    
    'Host': 'm.weibo.cn',    
    'Referer': 'https://m.weibo.cn/u/1251000504',    
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
    Chrome/67.0.3396.87 Safari/537.36',
}

# 這里需要提前創(chuàng)建好‘weibo’數(shù)據(jù)庫
# 并在‘weibo’數(shù)據(jù)庫中創(chuàng)建一個(gè)‘weibo’集合
# 我是用mongodb可視化工具Robo 3t手動(dòng)創(chuàng)建的
client = MongoClient()
db = client['weibo']
collection = db['weibo']
   
def get_page(page):
    # 這個(gè)params參數(shù)可以直接從瀏覽器中復(fù)制過來
    # 記得添加一個(gè)page參數(shù)
    params = {        
    'uid': '1251000504',        
    'luicode' : '10000011',        
    'lfid': '100103type=1&q=許嵩',        
    'featurecode': '20000320',        
    'type': 'uid',        
    'value': '1251000504',        
    'containerid': '1076031251000504',        
    'page': page
    }
    # 動(dòng)態(tài)構(gòu)造URL
    url = base_url + urlencode(params)    
    try:
        response = requests.get(url, headers=headers)        
        if response.status_code == 200:            
            return response.json()    
    except requests.ConnectionError as e:
        print('Error', e.args)
    time.sleep(5) # 休息一下，防止封ip
    
def parse_page(json):    
    if json:
        items = json.get('data').get('cards')        
        for index, item in enumerate(items):            
            if page == 1 and index == 1:                
                continue
            else:
                item = item.get('mblog')
                weibo = {}
                weibo['id'] = item.get('id')
                weibo['text'] = pq(item.get('text')).text()
                weibo['attitudes'] = item.get('attitudes_count')
                weibo['comments'] = item.get('comments_count')
                weibo['reposts'] = item.get('reposts_count')                
                yield weibo

                                
if __name__ == '__main__':  
    # 這個(gè)41是我算出來的
    # 一共395條微博，每頁10條，從1開始計(jì)數(shù)  
    for page in range(1, 41):
        json = get_page(page)
        results = parse_page(json)        
        for result in results:            
            # print(result)
            # 將結(jié)果插入數(shù)據(jù)庫
            collection.insert(result)

查看爬取數(shù)據(jù)

然后看一下存在mongodb中的數(shù)據(jù)：

這里我使用的是mongodb的可視化工具：Robo 3T。利用它可以方便的查看mongodb數(shù)據(jù)庫里的數(shù)據(jù)，

這里可以看到，許嵩的第一條微博是2011年8月25號(hào)發(fā)的，那個(gè)時(shí)候的許嵩正在瘋狂寫歌~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

爬取許嵩的所有微博并存入MongoDB

爬取許嵩的所有微博并存入MongoDB

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

爬取許嵩的所有微博并存入MongoDB

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av