爬蟲要違法了嗎?小編告訴大家:守住規(guī)則,大膽去爬

最近我學(xué)習(xí)和實踐網(wǎng)絡(luò)爬蟲,總想著在這兒抓點數(shù)據(jù)在那兒抓點數(shù)據(jù)。

但不知為什么,抓取別人網(wǎng)站數(shù)據(jù)時,總會產(chǎn)生莫名恐慌生怕自己一不小心就侵權(quán)了,然后被關(guān)在監(jiān)獄摩擦


所以我想現(xiàn)在這個時候,非常有必要仔細(xì)研究一下有關(guān)網(wǎng)絡(luò)爬蟲的規(guī)則和底線。

我們生活中幾乎每天都在爬蟲應(yīng)用,如百度,你在百度中搜索到的內(nèi)容幾乎都是爬蟲采集下來的(百度自營的產(chǎn)品除外,如百度知道、百科等),所以網(wǎng)絡(luò)爬蟲作為一門技術(shù),技術(shù)本身是不違法的。

哪些情況下網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)后具備法律風(fēng)險?

當(dāng)采集的站點有聲明禁止爬蟲采集或者轉(zhuǎn)載商業(yè)化時;

比如淘寶網(wǎng),大家來看淘寶的聲明。

當(dāng)網(wǎng)站聲明了rebots協(xié)議時

Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴爬蟲哪些頁面可以抓取,哪些頁面不能抓取。

robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統(tǒng)自帶的Notepad,就可以創(chuàng)建和編輯它。robots.txt是一個協(xié)議,而不是一個命令。robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

如何查看采集的內(nèi)容是的有rebots協(xié)議?

其實方法很簡單。你想查看的話就在IE上打http://你的網(wǎng)址/robots.txt要是說查看分析robots的話有專業(yè)的相關(guān)工具 站長工具就可以!

爬蟲作為一種計算機(jī)技術(shù)就決定了它的中立性,因此爬蟲本身在法律上并不被禁止,但是利用爬蟲技術(shù)獲取數(shù)據(jù)這一行為是具有違法甚至是犯罪的風(fēng)險的。

舉個例子:像谷歌這樣的搜索引擎爬蟲,每隔幾天對全網(wǎng)的網(wǎng)頁掃一遍,供大家查閱,各個被掃的網(wǎng)站大都很開心。這種就被定義為“善意爬蟲”。但是像搶票軟件這樣的爬蟲,對著 12306 每秒鐘恨不得擼幾萬次,鐵總并不覺得很開心,這種就被定義為“惡意爬蟲”。

爬蟲所帶來風(fēng)險主要體現(xiàn)在以下3個方面:

違反網(wǎng)站意愿,例如網(wǎng)站采取反爬措施后,強(qiáng)行突破其反爬措施;

爬蟲干擾了被訪問網(wǎng)站的正常運營;

爬蟲抓取了受到法律保護(hù)的特定類型的數(shù)據(jù)或信息。

解釋一下爬蟲的定義:網(wǎng)絡(luò)爬蟲(英語:web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機(jī)器人。

網(wǎng)絡(luò)爬蟲抓取的數(shù)據(jù)有如下規(guī)則:

數(shù)據(jù)完全公開

不存在也無法做到越權(quán)訪問爬取

常見錯誤觀點:認(rèn)為爬蟲就是用來抓取個人信息的,與信用基礎(chǔ)數(shù)據(jù)相關(guān)的。

總的來說,技術(shù)本無罪,但是你利用技術(shù)爬取別人隱私、商業(yè)數(shù)據(jù),那你就是蔑視法律了

寫在最后

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)爬蟲的君子協(xié)議 網(wǎng)絡(luò)爬蟲的尺寸 網(wǎng)絡(luò)爬蟲引發(fā)的問題 性能騷擾 法律風(fēng)險 隱私泄露 網(wǎng)絡(luò)爬蟲的"性能騷擾"web...
    若與閱讀 33,907評論 2 43
  • 33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即...
    visiontry閱讀 7,694評論 1 99
  • 你爬了嗎? 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即網(wǎng)絡(luò)爬蟲,是一種自動獲取網(wǎng)...
    Albert新榮閱讀 2,319評論 0 8
  • 什么是網(wǎng)絡(luò)爬蟲 大數(shù)據(jù)時代,獲得完整全面的數(shù)據(jù),是件極其重要卻并不容易的事情。要真正做好大數(shù)據(jù)時代的分析,就需要借...
    ReinhardHuang閱讀 967評論 0 10
  • 國慶就要結(jié)束啦!而我的心也不想收回來,因為我想讓我的靈魂全世界飛,飛去看看外面的世界,生活中的視野很狹窄,可我不愿...
    闌十三閱讀 431評論 3 11

友情鏈接更多精彩內(nèi)容