爬蟲究竟是合法還是違法的？

首頁>社會>老男孩IT教育2019-10-22 21:50

爬蟲究竟是合法還是違法的？

2019年10月21日上午，有媒體曝出，港股上市P2P平臺51信用卡（http://2051.HK）位於杭州西湖區西溪首座辦公地點被警方調查，現場有數十輛警車，參與調查的警察超過百名。禍起於爬蟲的它，不禁讓我們自問，爬蟲究竟是合法還是違法的？

首先來談談啥子叫“爬蟲”？

你有沒有用過搶票軟體？

但無論你如何努力，往往總是直到最後千鈞一髮之刻，才能拿到前往遠方的車票。

這個讓你可能又愛又恨的搶票軟體，它的技術原理就是爬蟲。

所謂爬蟲，如果從技術原理上講，它就是一個高效的下載工具，能夠批量將網頁下載到本地，留作備份。如果結合一些其他工具和演算法，就能夠實現，收集同一型別的網頁，重複執行同一動作等行為。

簡單講，就是通過技術和演算法模擬一個人在網路上的行為，像人一樣點網頁，像人一樣下訂單，只不過，相比起真人，他的效率高的異常。

它的工作狀態有些像蟻群，每個螞蟻的工作任務都非常簡單，但是，當一大群螞蟻重複相同的工作的時候，就能產生超乎尋常的效果。

比如說，如果你需要把全網關於某個關鍵詞的網站全部收集彙總到一起（比如：老男孩教育），這時，就是爬蟲挨個查詢所有關老男孩教育的資訊，呈現到你的面前。

再比如說，當你想要找到12306中，某天所有北京到上海的餘票，爬蟲就可以幫助你不停地重新整理網頁，直到出現那張可以帶你出發的車票。

在網際網路世界，所有收集資訊的過程，都離不開爬蟲的參與。可以這樣說，沒有爬蟲，就沒有網際網路。

接著再聊聊“爬蟲”的善與惡

爬蟲也分善惡。爬蟲最為廣泛，也使人受益最大的應用就是搜尋引擎。

現在，幾乎所有有一定體量的app，都會有一個搜尋框，通過搜尋框，你可以查詢到各種你需要的資訊和內容，這是爬蟲對人最大的價值。同時，也是支撐起谷歌近萬億美元市值的工具之一。

但是，並不會是所有的爬蟲都像谷歌這樣你好我好大家好，反而真的會像蟲子一樣惹人煩惱。

上面這張圖，顯示了爬蟲流量的主要去向，每個色塊背後，都是一個真實而又強大的利益鏈條。這些流量的去向，就不再充滿善意，更多情況下，是生長在灰色地帶。

這些爬蟲，或是為了一己私利，或是出於某些商業利益，對某一款app瘋狂的騷擾，甚至影響了正常業務發展。這些爬蟲，就是惡意的爬蟲（雖然惡意，對於消費者來說可能並不是壞事，這裡的惡意主要是指對被爬網站的惡意）。

接下來，我們來展示一下那些惡意爬蟲應用，以及這些應用都是怎麼賺錢的？

1）刷票軟體

12306常年飽受爬蟲軟體的騷擾。

這個看起來並不複雜的行為，其實帶給12306巨大的壓力。

你知道每年過年之前，12306 被點成什麼樣了嗎？公開資料是這麼說的——

你可能還記得，前兩年12306上線了奇葩的驗證碼，需要我們在一堆圖片中，找到符合要求的一種。圖片清晰度感人，要求奇葩，時不時會鬧出各種各樣的笑話。還有許多人在網上吐槽12306是不是故意刁難我們？

說實話，這真不是12306故意刁難我們，實在是飽受爬蟲騷擾之後的無奈之舉。許多人利用爬蟲技術反覆登入重新整理，力求在新的餘票出現之時，第一時間搶到票。

為了儘可能避免這種情況，儘可能讓真人買到票，12306才不得不上線這些奇葩的驗證碼。許多爬蟲只有最簡單的點選和收集資料的能力，並不能識別圖片，絕大多數爬蟲都會被攔截。

但是，還是會有少部分的高階玩家，攻破這道防線。

有一種東西叫做“打碼平臺”，你可以了解一下。

打碼平臺僱傭了很多叔叔阿姨，他們在電腦螢幕前不做別的事情，專門幫人識別驗證碼。

那邊搶票軟體遇到了驗證碼，系統就會自動把這些驗證碼傳到叔叔阿姨面前，他們手工選好之後，然後再把結果傳回去。總共的過程用不了幾秒時間。

而且，這樣的打碼平臺還有記憶功能。如果叔叔阿姨已經標記了某張圖，那麼下次這張圖片再出現的時候，系統就直接判斷。

時間一長，12306 系統裡的圖片就被標記完了，機器自己都能認識，叔叔阿姨都可以坐在一邊鬥地主了。

你可能會問，就算用了刷票軟體又如何，搶到票不就好了？

且不說刷票軟體帶來的巨大的流量壓力，需要為此多付出的伺服器成本。為了防範刷票，不得不將註冊和驗證流程越搞越煩瑣，平添無數煩惱。

而且，你用搶票軟體買到了票，那麼，不會使用搶票軟體的叔叔阿姨們又該怎麼辦吶？

所以，這事不是你方便了就好。

2）殭屍粉大軍

在微博上有一類粉絲，叫做“殭屍粉”。

我們經常能夠看到一些微博名稱中帶著一長串數字，沒有頭像，卻瘋狂的轉發一些熱門評論，或者瘋狂對著一個微博點贊轉發，點開主頁卻一條微博都沒有。這些沒有頭像，以數字命名的微博粉絲，就是殭屍粉。

殭屍粉的興起，與爬蟲也離不開關係。

就像我們說的，爬蟲是模模擬人的行為，但是，只能模仿最簡單的行為，比如說，按照事先安排好的文案和進行評論，再比如說，點贊轉發加關注。所以，如果只看資料，不仔細分辨，往往能夠瞞天過海。

可是，微博不像是12306，可以靠買票賺錢，刷量又有什麼用吶？

用處大了。

廣告主看到資料很開心，在你這裡投放廣告，提升註冊數。可是你這都是爬蟲的假賬號，沒有真人該咋辦吶？

再不濟，有一個看起來火熱的號，還可以乘著機會早日賣掉，這也換來一波不菲的收入。

最後，你還能靠買清粉工具再賺一波。

別人只是一石二鳥，你可能是一魚三吃，實在是佩服。

而且，微博官方對這事其實心知肚明，只不過睜一隻眼，閉一隻眼罷了，畢竟，有了殭屍粉，資料還好看很多，何樂而不為吶？

3）返利電商刷低價

不知道你還記不記得有一類網站叫“聚合電商”“返利平臺”等等等等。

這些網站，也是爬蟲工具的受益者，它的基本原理和搜尋引擎類似。

搜尋引擎是將網頁爬取過來，聚合在一起展示出來。

返利網站是將商品爬取出來，聚合在一起展示出來，順道把不同網站的商品做一個比價。

當然，無論是淘寶還是京東，對於這件事都是拒絕的，畢竟，誰也沒法保證自己的每件商品就是全網最低價。如果都被返利網站展示出來，豈不就虧了。

不過，對於店鋪來說，可能就不一樣了，畢竟，多一個渠道就多一份銷售額，在哪賣不是賣啊。

這類網站，原理和搜尋引擎接近，盈利模式也差不多。

一方面，他們經常會設定競價排名，通過花更多錢，獲得更好的廣告位，提升銷售額。

不過，最大頭的收入還是做中間商，店鋪每成交一單，店家適當給平臺一些返利。

對於消費者來說，這可能不算什麼壞事，不過，對於電商平臺來說，可能不算好事，畢竟這些店鋪能來網上賣貨都是靠他們的努力，平白無故就被你抓取了，最後錢還讓你賺走了，心情肯定不好。

4）社群批量抓取資料和內容

再有一類，就是馬蜂窩那一類的網站。

其實，許多社群產品中的內容，大多數都是爬蟲爬取而來，除了像馬蜂窩，許多問答、文庫或招聘網站都會通過爬蟲獲取內容。

畢竟，好內容自帶流量，當你有了足夠多的優質內容，也就有了足夠大的流量，變現就很輕鬆了。

對此，被爬網站有時候也是睜一隻眼，閉一隻眼，管不管，全在於自己有沒有這項業務。

最典型的例子就是領英，領英在2017年曾經將一家名為HiQ的資料分析企業告上法庭，原因是認定這家企業抓取領英使用者的就職狀態資訊，提供給另外兩家利用機器學習分析員工跳槽傾向和職業技能的企業。

結果卻是即使打著保護使用者隱私的旗號，領英仍然敗訴並且被聯邦法庭要求開放資料介面。

原因是HiQ已經這樣爬取領英的資料長達五年，領英一直知情並且曾經去參加過HiQ組織的論壇峰會。現在領英自己開展了和HiQ類似的業務，就要斷了HiQ的生路。

這和大多數網站對待爬蟲的態度都很接近，當你規模不大，或者我還不準備做你這塊的生意時，可以縱容你爬取我的資訊，一定程度上，這個爬取過程還能提高我的受益。

但是，一旦超出我的承受範圍，就要採取必要手段反擊。

以上，就是爬蟲常見的一些騷操作，說實話，這也只是窺其一角，爬蟲在整個網際網路中的應用，遠超你的想象。

政務網站、搜尋引擎、地圖、自媒體等等等等一系列火熱的應用，背後都有爬蟲的身影，這也是為什麼我們說，沒有爬蟲，就沒有網際網路。

最後再聊兩個常見的問題

1）這事違法嗎？

目前尚沒有任何法律明確規定，類似爬蟲這樣的行為違法。

所以，爬蟲本身並不違法。但是，你如何使用爬蟲獲取的資料和資訊，大多數情況都是有明確的規定的。

再比如說，你爬取一些個人隱私資料，公開買賣，也是違法行為，我也是可以處理的。

2）我究竟應該如何看待爬蟲？

對於個人而言，爬蟲作為高效的資訊和資料獲取工具，一定是網際網路人的必備技巧，他將大幅節省你的時間，極大程度提高你的工作效率。

比如說競品分析、行業研究、人群畫像等工作，通過爬蟲，你可以只需要幾分鐘的時間，就能夠將某一類資料全部爬取下來，然後有針對性的進行資料分析，優化你的行文。

對於公司來說，爬蟲的應用空間就更為巨大了。

把網路上所有的資訊文章，以及使用者在社交網站上的資料爬取下來。把這些資料進行分類打標籤，進行一一對應。將擁有同類標籤的文章和使用者進行匹配。

通過高效的應用搜索引擎和個性化推薦功能，將傳統的人找資訊的分發模式，轉變為資訊找人的分發模式，幫助其成為一家獨角獸。

但是，技術雖然有價值，如何使用技術就成為新的問題。

在很多時候，應用爬蟲其實是一個零和遊戲，一方受益就代表著另一方受損，會使用搶票軟體的人就會使不使用搶票軟體的人受損；使用殭屍粉刷量的人，搶奪的是那些辛辛苦苦做內容的媒體人的空間；返利平臺則是直接截了電商的胡。

很難說在這場競爭中究竟孰是孰非，孰優孰劣。但是，一旦我們的競爭，並沒有讓大家變得更好，或者是以一方付出更高的代價來實現的，這件事真的還合理嗎？

121

劇多

爬蟲究竟是合法還是違法的？

網路爬蟲

軟體

中國鐵路客戶服務中心

Google

搜尋引擎

相關內容