Python 爬蟲(chóng) | 猿人學(xué)第一題

好久沒(méi)有更新js逆向的文章了,之前分享過(guò)一個(gè)爬蟲(chóng)練習(xí)網(wǎng)站,之后我會(huì)將上面的題全部進(jìn)行講解,雖然很多公眾號(hào)都有在做了,但是我還是要做,畢竟自己總結(jié)的才是最深刻的。

第一題:

http://match.yuanrenxue.com/match/1

目錄:

1、環(huán)境

2、分析網(wǎng)站

3、實(shí)現(xiàn)爬取

1、環(huán)境

Python3.7、pyexecjs、requests

2、分析網(wǎng)站

1-1.png

目標(biāo)就是將紅框中的數(shù)據(jù)進(jìn)行相加,很容易就可以找到數(shù)據(jù)接口如圖2-2

這個(gè)網(wǎng)站只要你一打開(kāi)開(kāi)發(fā)者工具就會(huì)進(jìn)行無(wú)限debugger,讓你無(wú)法調(diào)試,直接右鍵點(diǎn)擊行數(shù),選擇Never pause here即可跳過(guò)

1-2.png
1-3.png

圖2-3

1-4.png

圖2-4

請(qǐng)求中帶了一個(gè)m參數(shù),初步一看估計(jì)是MD5加時(shí)間戳

方法一:

接下來(lái)看看這個(gè)請(qǐng)求的調(diào)用棧如圖2-5

1-6.png

進(jìn)入request,看到一行無(wú)法格式化的代碼,如圖2-6

1-7.png

方法二:

做Js逆向有多種方法可以定位加密位置,直接查看調(diào)用棧的方法對(duì)于剛接觸的人不好理解,我們還可以一步步調(diào)式到加密位置。

1-8.png

這個(gè)請(qǐng)求是xhr類(lèi)型,對(duì)于xhr類(lèi)型就打xhr斷點(diǎn)

1-9.png

復(fù)制一部分url

1-10.png

xhr斷點(diǎn)是只要網(wǎng)站發(fā)起的請(qǐng)求包含了目標(biāo)字符串的就會(huì)被自動(dòng)打下斷點(diǎn)
1-11.png

刷新一下網(wǎng)站,自動(dòng)打上了斷點(diǎn),先看旁邊的調(diào)用棧,一個(gè)個(gè)看,很快就可以找到剛才的加密位置。

1-12.png

這行代碼既然無(wú)法用開(kāi)發(fā)者工具進(jìn)行格式化就用其他工具,我用的網(wǎng)站是:http://tool.chinaz.com/tools/jsformat.aspx?qq-pf-to=pcqq.c2c

1-13.png

1-14.png

格式化后的代碼也就一百多行,大概看一遍

1-15.png

很快就發(fā)現(xiàn)了參數(shù)m的生成邏輯,

var timestamp = Date.parse(new Date()) + 100000000; var m = oo0O0(timestamp.toString()) + window.f; var list = { "page": window.page, "m": m + '丨' + timestamp / 1000 };

“m”由m + '丨' + timestamp / 1000組成,

變量m由oo0O0(timestamp.toString()) + window.f賦值得到, window.f先不看,先查看oo0O0的邏輯,大致看一下就好了,不必每行代碼都看懂

function oo0O0(mw) {
window.b = '';
for (var i = 0, len = window.a.length; i < len; i++) {
console.log(window.a[i]);
window.b += Stringdocument.e + document.g
}
var U = ['W5r5W6VdIHZcT8kU', 'WQ8CWRaxWQirAW=='];
var J = function (o, E) {
o = o - 0x0;
var N = U[o];
if (J['bSSGte'] === undefined) {
var Y = function (w) {
var m = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789+/=',
T = String(w)'replace';
var A = '';
for (var C = 0x0, b, W, l = 0x0; W = T 'charAt'; ~W && (b = C % 0x4 ? b * 0x40 + W : W, C++ % 0x4) ? A += String 'fromCharCode' : 0x0) {
W = m 'indexOf'
}
return A
};
var t = function (w, m) {
var T = [],
A = 0x0,
C,
b = '',
W = '';
w = Y(w);
for (var R = 0x0, v = w['length']; R < v; R++) {
W += '%' + ('00' + w 'charCodeAt' 'toString')'slice'
}
w = decodeURIComponent(W);
var l;
for (l = 0x0; l < 0x100; l++) {
T[l] = l
}
for (l = 0x0; l < 0x100; l++) {
A = (A + T[l] + m 'charCodeAt') % 0x100,
C = T[l],
T[l] = T[A],
T[A] = C
}
l = 0x0,
A = 0x0;
for (var L = 0x0; L < w['length']; L++) {
l = (l + 0x1) % 0x100,
A = (A + T[l]) % 0x100,
C = T[l],
T[l] = T[A],
T[A] = C,
b += String 'fromCharCode'
}
return b
};
J['luAabU'] = t,
J['qlVPZg'] = {},
J['bSSGte'] = !![]
}
var H = J 'qlVPZg';
return H === undefined ? (J['TUDBIJ'] === undefined && (J['TUDBIJ'] = !![]), N = J 'luAabU', J 'qlVPZg' = N) : N = H,
N
};
eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));
return ''

我看到eval、atob函數(shù)的時(shí)候就知道離答案不遠(yuǎn)了,eval可以運(yùn)行JavaScript 字符串,atob則是關(guān)于base64的一個(gè)方法。打開(kāi)開(kāi)發(fā)者工具的console欄分別輸入的有疑問(wèn)的變量,結(jié)果如下圖(我之后會(huì)出一個(gè)如何在開(kāi)發(fā)者工具中就可以調(diào)試這種無(wú)法格式化的代碼)

1-16.png

eval就是執(zhí)行這一大段js代碼

eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'))

就可以改寫(xiě)為

eval(atob(window['b'])'replace')

將這段js代碼拿出來(lái)看看

1-17.png

格式化完看到了window.f在這里賦值了,并且確實(shí)是MD5加密,

1-18.png

var m = oo0O0(timestamp.toString()) + window.f;

oo0O0返回是空,則可以改寫(xiě)為

var m = window.f,分析到這里就可以了,把藏在eval中的js代碼扣出來(lái)

1-19.png

把這個(gè)MD5加密封裝一下,方便python調(diào)用[圖片上傳失敗...(image-13cbeb-1615389923310)]

3、實(shí)現(xiàn)爬取

import execjs import requests

headers = { 'Connection': 'keep-alive', 'Pragma': 'no-cache', 'Cache-Control': 'no-cache', 'Accept': 'application/json, text/javascript, /; q=0.01', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36', 'Host': 'match.yuanrenxue.com', 'X-Requested-With': 'XMLHttpRequest', 'Referer': 'http://match.yuanrenxue.com/match/1', 'Accept-Language': 'zh-CN,zh;q=0.9', } with open('第一題.js', 'r', encoding='gbk') as f: jstext = f.read() m = execjs.compile(jstext).call('get_m') data = { 'page': 1, 'm': m } url = f'http://match.yuanrenxue.com/api/match/1?page=1&m={m}' response = requests.get(url, headers=headers, data=data) print(response.json())

運(yùn)行結(jié)果:

1-20.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容