首頁>社會>

2019年10月21日上午,有媒體曝出,港股上市P2P平臺51信用卡(http://2051.HK)位於杭州西湖區西溪首座辦公地點被警方調查,現場有數十輛警車,參與調查的警察超過百名。禍起於爬蟲的它,不禁讓我們自問,爬蟲究竟是合法還是違法的?

首先來談談啥子叫“爬蟲”?

你有沒有用過搶票軟體?

但無論你如何努力,往往總是直到最後千鈞一髮之刻,才能拿到前往遠方的車票。

這個讓你可能又愛又恨的搶票軟體,它的技術原理就是爬蟲。

所謂爬蟲,如果從技術原理上講,它就是一個高效的下載工具,能夠批量將網頁下載到本地,留作備份。如果結合一些其他工具和演算法,就能夠實現,收集同一型別的網頁,重複執行同一動作等行為。

簡單講,就是通過技術和演算法模擬一個人在網路上的行為,像人一樣點網頁,像人一樣下訂單,只不過,相比起真人,他的效率高的異常。

它的工作狀態有些像蟻群,每個螞蟻的工作任務都非常簡單,但是,當一大群螞蟻重複相同的工作的時候,就能產生超乎尋常的效果。

比如說,如果你需要把全網關於某個關鍵詞的網站全部收集彙總到一起(比如:老男孩教育),這時,就是爬蟲挨個查詢所有關老男孩教育的資訊,呈現到你的面前。

再比如說,當你想要找到12306中,某天所有北京到上海的餘票,爬蟲就可以幫助你不停地重新整理網頁,直到出現那張可以帶你出發的車票。

在網際網路世界,所有收集資訊的過程,都離不開爬蟲的參與。可以這樣說,沒有爬蟲,就沒有網際網路。

接著再聊聊“爬蟲”的善與惡

爬蟲也分善惡。爬蟲最為廣泛,也使人受益最大的應用就是搜尋引擎。

現在,幾乎所有有一定體量的app,都會有一個搜尋框,通過搜尋框,你可以查詢到各種你需要的資訊和內容,這是爬蟲對人最大的價值。同時,也是支撐起谷歌近萬億美元市值的工具之一。

但是,並不會是所有的爬蟲都像谷歌這樣你好我好大家好,反而真的會像蟲子一樣惹人煩惱。

上面這張圖,顯示了爬蟲流量的主要去向,每個色塊背後,都是一個真實而又強大的利益鏈條。這些流量的去向,就不再充滿善意,更多情況下,是生長在灰色地帶。

這些爬蟲,或是為了一己私利,或是出於某些商業利益,對某一款app瘋狂的騷擾,甚至影響了正常業務發展。這些爬蟲,就是惡意的爬蟲(雖然惡意,對於消費者來說可能並不是壞事,這裡的惡意主要是指對被爬網站的惡意)。

接下來,我們來展示一下那些惡意爬蟲應用,以及這些應用都是怎麼賺錢的?

1)刷票軟體

12306常年飽受爬蟲軟體的騷擾。

這個看起來並不複雜的行為,其實帶給12306巨大的壓力。

你知道每年過年之前,12306 被點成什麼樣了嗎?公開資料是這麼說的——

你可能還記得,前兩年12306上線了奇葩的驗證碼,需要我們在一堆圖片中,找到符合要求的一種。圖片清晰度感人,要求奇葩,時不時會鬧出各種各樣的笑話。還有許多人在網上吐槽12306是不是故意刁難我們?

說實話,這真不是12306故意刁難我們,實在是飽受爬蟲騷擾之後的無奈之舉。許多人利用爬蟲技術反覆登入重新整理,力求在新的餘票出現之時,第一時間搶到票。

為了儘可能避免這種情況,儘可能讓真人買到票,12306才不得不上線這些奇葩的驗證碼。許多爬蟲只有最簡單的點選和收集資料的能力,並不能識別圖片,絕大多數爬蟲都會被攔截。

但是,還是會有少部分的高階玩家,攻破這道防線。

有一種東西叫做“打碼平臺”,你可以了解一下。

打碼平臺僱傭了很多叔叔阿姨,他們在電腦螢幕前不做別的事情,專門幫人識別驗證碼。

那邊搶票軟體遇到了驗證碼,系統就會自動把這些驗證碼傳到叔叔阿姨面前,他們手工選好之後,然後再把結果傳回去。總共的過程用不了幾秒時間。

而且,這樣的打碼平臺還有記憶功能。如果叔叔阿姨已經標記了某張圖,那麼下次這張圖片再出現的時候,系統就直接判斷。

時間一長,12306 系統裡的圖片就被標記完了,機器自己都能認識,叔叔阿姨都可以坐在一邊鬥地主了。

你可能會問,就算用了刷票軟體又如何,搶到票不就好了?

且不說刷票軟體帶來的巨大的流量壓力,需要為此多付出的伺服器成本。為了防範刷票,不得不將註冊和驗證流程越搞越煩瑣,平添無數煩惱。

而且,你用搶票軟體買到了票,那麼,不會使用搶票軟體的叔叔阿姨們又該怎麼辦吶?

所以,這事不是你方便了就好。

2)殭屍粉大軍

在微博上有一類粉絲,叫做“殭屍粉”。

我們經常能夠看到一些微博名稱中帶著一長串數字,沒有頭像,卻瘋狂的轉發一些熱門評論,或者瘋狂對著一個微博點贊轉發,點開主頁卻一條微博都沒有。這些沒有頭像,以數字命名的微博粉絲,就是殭屍粉。

殭屍粉的興起,與爬蟲也離不開關係。

就像我們說的,爬蟲是模模擬人的行為,但是,只能模仿最簡單的行為,比如說,按照事先安排好的文案和進行評論,再比如說,點贊轉發加關注。所以,如果只看資料,不仔細分辨,往往能夠瞞天過海。

可是,微博不像是12306,可以靠買票賺錢,刷量又有什麼用吶?

用處大了。

廣告主看到資料很開心,在你這裡投放廣告,提升註冊數。可是你這都是爬蟲的假賬號,沒有真人該咋辦吶?

再不濟,有一個看起來火熱的號,還可以乘著機會早日賣掉,這也換來一波不菲的收入。

最後,你還能靠買清粉工具再賺一波。

別人只是一石二鳥,你可能是一魚三吃,實在是佩服。

而且,微博官方對這事其實心知肚明,只不過睜一隻眼,閉一隻眼罷了,畢竟,有了殭屍粉,資料還好看很多,何樂而不為吶?

3)返利電商刷低價

不知道你還記不記得有一類網站叫“聚合電商”“返利平臺”等等等等。

這些網站,也是爬蟲工具的受益者,它的基本原理和搜尋引擎類似。

搜尋引擎是將網頁爬取過來,聚合在一起展示出來。

返利網站是將商品爬取出來, 聚合在一起展示出來,順道把不同網站的商品做一個比價。

當然,無論是淘寶還是京東,對於這件事都是拒絕的,畢竟,誰也沒法保證自己的每件商品就是全網最低價。如果都被返利網站展示出來,豈不就虧了。

不過,對於店鋪來說,可能就不一樣了,畢竟,多一個渠道就多一份銷售額,在哪賣不是賣啊。

這類網站,原理和搜尋引擎接近,盈利模式也差不多。

一方面,他們經常會設定競價排名,通過花更多錢,獲得更好的廣告位,提升銷售額。

不過,最大頭的收入還是做中間商,店鋪每成交一單,店家適當給平臺一些返利。

對於消費者來說,這可能不算什麼壞事,不過,對於電商平臺來說,可能不算好事,畢竟這些店鋪能來網上賣貨都是靠他們的努力,平白無故就被你抓取了,最後錢還讓你賺走了,心情肯定不好。

4)社群批量抓取資料和內容

再有一類,就是馬蜂窩那一類的網站。

其實,許多社群產品中的內容,大多數都是爬蟲爬取而來,除了像馬蜂窩,許多問答、文庫或招聘網站都會通過爬蟲獲取內容。

畢竟,好內容自帶流量,當你有了足夠多的優質內容,也就有了足夠大的流量,變現就很輕鬆了。

對此,被爬網站有時候也是睜一隻眼,閉一隻眼,管不管,全在於自己有沒有這項業務。

最典型的例子就是領英,領英在2017年曾經將一家名為HiQ的資料分析企業告上法庭,原因是認定這家企業抓取領英使用者的就職狀態資訊,提供給另外兩家利用機器學習分析員工跳槽傾向和職業技能的企業。

結果卻是即使打著保護使用者隱私的旗號,領英仍然敗訴並且被聯邦法庭要求開放資料介面。

原因是HiQ已經這樣爬取領英的資料長達五年,領英一直知情並且曾經去參加過HiQ組織的論壇峰會。現在領英自己開展了和HiQ類似的業務,就要斷了HiQ的生路。

這和大多數網站對待爬蟲的態度都很接近,當你規模不大,或者我還不準備做你這塊的生意時,可以縱容你爬取我的資訊,一定程度上,這個爬取過程還能提高我的受益。

但是,一旦超出我的承受範圍,就要採取必要手段反擊。

以上,就是爬蟲常見的一些騷操作,說實話,這也只是窺其一角,爬蟲在整個網際網路中的應用,遠超你的想象。

政務網站、搜尋引擎、地圖、自媒體等等等等一系列火熱的應用,背後都有爬蟲的身影,這也是為什麼我們說,沒有爬蟲,就沒有網際網路。

最後再聊兩個常見的問題

1)這事違法嗎?

目前尚沒有任何法律明確規定,類似爬蟲這樣的行為違法。

所以,爬蟲本身並不違法。但是,你如何使用爬蟲獲取的資料和資訊,大多數情況都是有明確的規定的。

再比如說,你爬取一些個人隱私資料,公開買賣,也是違法行為,我也是可以處理的。

2)我究竟應該如何看待爬蟲?

對於個人而言,爬蟲作為高效的資訊和資料獲取工具,一定是網際網路人的必備技巧,他將大幅節省你的時間,極大程度提高你的工作效率。

比如說競品分析、行業研究、人群畫像等工作,通過爬蟲,你可以只需要幾分鐘的時間,就能夠將某一類資料全部爬取下來,然後有針對性的進行資料分析,優化你的行文。

對於公司來說,爬蟲的應用空間就更為巨大了。

把網路上所有的資訊文章,以及使用者在社交網站上的資料爬取下來。把這些資料進行分類打標籤,進行一一對應。將擁有同類標籤的文章和使用者進行匹配。

通過高效的應用搜索引擎和個性化推薦功能,將傳統的人找資訊的分發模式,轉變為資訊找人的分發模式,幫助其成為一家獨角獸。

但是,技術雖然有價值,如何使用技術就成為新的問題。

在很多時候,應用爬蟲其實是一個零和遊戲,一方受益就代表著另一方受損,會使用搶票軟體的人就會使不使用搶票軟體的人受損;使用殭屍粉刷量的人,搶奪的是那些辛辛苦苦做內容的媒體人的空間;返利平臺則是直接截了電商的胡。

很難說在這場競爭中究竟孰是孰非,孰優孰劣。但是,一旦我們的競爭,並沒有讓大家變得更好,或者是以一方付出更高的代價來實現的,這件事真的還合理嗎?

最新評論
  • Twitter 交易後的第一次,埃隆馬斯克暗示 DOGE 將進入該平臺
  • 任性停車,有你難以承受的法律風險