米撲科技,是一家專注互聯(lián)網(wǎng)金融和大數(shù)據(jù)挖掘的初創(chuàng)互聯(lián)網(wǎng)公司,正式注冊成立于2016年9月,總部位于北京市海淀區(qū)中關(guān)村核心功能區(qū)。
米撲團隊,成員來自百度、小米、阿里、創(chuàng)新工場等一線互聯(lián)網(wǎng)公司,核心技術(shù)研發(fā),實戰(zhàn)經(jīng)驗豐富,具有濃厚的極客精神和精益的工匠品質(zhì)。
米撲代理,是米撲科技旗下的一款用于網(wǎng)頁抓取、數(shù)據(jù)采集的代理產(chǎn)品,作為全球代理服務(wù)的領(lǐng)導品牌,產(chǎn)品優(yōu)勢如下:
五年來,已經(jīng)積累超過2000多萬的海量代理庫,每天可用代理5000個左右
覆蓋全球120多個國家,中國34個省市,支持國家批量篩選
支持http、https、socks4、socks5等協(xié)議,總能滿足您的需求
擁有完全自主研發(fā)的代理檢測核心引擎,技術(shù)研發(fā)實力雄厚
擁有幾十臺云服務(wù)器,完全自主搭建的代理服務(wù)器,分布于全球十多個國家
作為全球代理的企業(yè)級領(lǐng)導品牌,服務(wù)于全球5000多家企業(yè)客戶,日均代理提取數(shù)超過10億個
米撲代理官網(wǎng):https://proxy.mimvp.com
米撲代理案例
楊小米,最近在公司做爬蟲工作,采集股票金融數(shù)據(jù),寫程序抓取數(shù)據(jù)的過程并不像平常我們用瀏覽器打開網(wǎng)頁那么簡單!
大多數(shù)的金融數(shù)據(jù)網(wǎng)站為了自己站點的性能和數(shù)據(jù)安全都設(shè)置了各種反爬策略。最常見的反爬蟲策略有輸入驗證碼、需要用戶登陸、單個IP設(shè)置次數(shù)和頻率、訪問網(wǎng)頁軌跡等等!所以廣大的爬蟲工程師,在抓取數(shù)據(jù)之前一般都會先調(diào)研目標網(wǎng)站是否設(shè)置了反爬策略。當不能正常訪問網(wǎng)站時,可以在程序中設(shè)置代理IP來判斷網(wǎng)站是不是封禁了我們的IP,或者使用海量的代理IP來爬取網(wǎng)頁采集數(shù)據(jù),推薦使用米撲代理:https://proxy.mimvp.com
CentOS 7 搭建 TinyProxy 代理
TinyProxy 和 Squid 都是比較優(yōu)秀的代理軟件
TinyProxy比較小眾,雖然沒有Squid的功能豐富,但是小巧簡單,也能滿足普通用戶的需求。
Squid 是一款優(yōu)秀的代理軟件,有很豐富的ACL管理功能,雖然squid很強大,但配置比較繁瑣。
1. 安裝 TinyProxy
yum -y install tinyproxy
2. 配置 TinyProxy
vim /etc/tinyproxy/tinyproxy.conf
修改 Port 端口,默認為 8888
Port 8888
注釋掉 Allow,表示允許所有人訪問代理
#Allow 127.0.0.1
隱藏掉Via請求頭部,去掉下面的注釋
DisableViaHeader Yes
更多配置項,下面是列舉一些配置文件默認的,不需要配置:
PidFile "/var/run/tinyproxy/tinyproxy.pid"
LogFile "/var/log/tinyproxy/tinyproxy.log"
LogLevel Info
MaxClients 100
MinSpareServers 5
MaxSpareServers 20
StartServers 10
3. 啟動 TinyProxy
systemctl start tinyproxy.service
更多命令如下:
systemctl restart tinyproxy.service
systemctl stop tinyproxy.service
systemctl status tinyproxy.service
systemctl enable tinyproxy.service
4. 關(guān)閉防火墻或開放端口訪問
方式1:關(guān)閉防火墻
/etc/init.d/iptables stop
方式2:開放端口訪問
iptables -A INPUT -p tcp --dport 8888 -j ACCEPT
重啟防火墻
/etc/init.d/iptables restart
注意:若采用的阿里云、騰訊云、AWS等云服務(wù)器,記得要在安全策略里開放端口號
5. 驗證生效
1)命令行測試驗證
curl 和 wget 測試使用代理,請參考米撲代理的使用示例,總結(jié)的非常全面!強烈推薦!
這里,直接使用米撲代理的最簡單示例:
curl -m 30 --retry 3 -x http://58.87.90.149:8888 http://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
curl -m 30 --retry 3 -x http://58.87.90.149:8888 -k https://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
tinyproxy 支持 http 和 https 兩種協(xié)議,經(jīng)米撲代理測試,成功!
2)Firefox 插件測試
首先,安裝 Proxy Switcher
其次,配置代理,如下圖:

然后,訪問米撲代理網(wǎng)站,驗證代理
https://proxy.mimvp.com/exist.php

上圖里,http_via 帶有參數(shù),要隱藏需要修改配置文件
vim /etc/tinyproxy/tinyproxy.conf
隱藏掉Via請求頭部,去掉下面的注釋
DisableViaHeader Yes
重啟 tinyproxy
systemctl restart tinyproxy.service
網(wǎng)友評價:
非常棒的總結(jié),按照米撲代理的配置步驟,都配置成功了!分享米撲代理的測試方法:
curl 和 wget 測試使用代理,請參考米撲代理的使用示例,總結(jié)的非常全面!強烈推薦!
米撲代理的使用示例:https://proxy.mimvp.com/demo2.php
這里,直接使用米撲代理的最簡單示例:
curl -m 30 --retry 3 -x http://58.87.90.149:8888 http://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>
curl -m 30 --retry 3 -x http://58.87.90.149:8888 -k https://proxy.mimvp.com/exist.php | grep 'color="red"'
<font color="red">58.87.90.149</font>