123,123

全国首例！短视频平台领域“网络爬虫”案件！提供软件者被判刑一年六个月！

日期： 2022-05-16

來源：e安在线

關(guān)鍵詞： 网络爬虫

　　全國首例！短視頻平臺領(lǐng)域“網(wǎng)絡(luò)爬蟲”案件！提供軟件者被判刑一年六個月！

　　2021年9月，某信息公司員工吳先生在網(wǎng)絡(luò)上發(fā)現(xiàn)有人在兜售一款名叫匯易獲客的軟件，通過對方官網(wǎng)獲取電話，購買了該款軟件。在使用過后，吳先生驚訝地發(fā)現(xiàn)該軟件居然可以爬取自己公司后臺數(shù)據(jù)和直播間用戶的相關(guān)信息，隨即報警。

　　經(jīng)偵查，公安機關(guān)發(fā)現(xiàn)售賣該軟件的某信息咨詢公司老板丁某有重大作案嫌疑。

　　經(jīng)查，2019年，丁某在網(wǎng)上結(jié)識丁某某（另案處理），后者表示有一款“爬蟲”軟件可以獲取某短視頻平臺數(shù)據(jù)，通過輸入關(guān)鍵詞能篩選出視頻、評論、賬戶等信息，批量抓取意向用戶進行業(yè)務(wù)推廣。丁某試用后購買代理權(quán)，組織人員通過網(wǎng)絡(luò)向多人銷售，違法所得計24360元。

　　2022年5月10日，經(jīng)梁溪區(qū)檢察院提起公訴，法院以提供侵入計算機信息系統(tǒng)程序罪判處被告人丁某有期徒刑一年六個月，緩刑兩年，并處罰金三萬元。

　　法院認為，被告人丁某伙同他人提供用于侵入計算機信息系統(tǒng)的程序，情節(jié)嚴重，已構(gòu)成侵入計算機信息系統(tǒng)程序罪，當(dāng)庭作出判決，并禁止其在緩刑考驗期內(nèi)從事互聯(lián)網(wǎng)相關(guān)經(jīng)營活動。

　　微信圖片_20220516172858.jpg

　　據(jù)悉，該軟件非法突破短視頻平臺防護機制，直接爬取大量用戶的賬號、評論等信息，繼而根據(jù)用戶習(xí)慣，發(fā)送私信實現(xiàn)精準(zhǔn)營銷，“網(wǎng)絡(luò)爬蟲”作為一項技術(shù)手段本身并不違法，但由于本案的軟件采取了避開或突破計算機信息系統(tǒng)的安全保護措施，未經(jīng)許可進入被害單位的計算機系統(tǒng)，即屬于非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪中的侵入行為。

　　對此，本案承辦法官表示，侵入計算機信息系統(tǒng)程序罪是刑法修正案（七）新增的一個罪名，主要針對向他人提供專門用于侵入或非法控制計算機信息系統(tǒng)工具或程序，或是明知他人實施侵入、非法控制計算機信息系統(tǒng)的違法犯罪行為而為其提供程序、工具，情節(jié)嚴重的行為處以刑罰。

　　網(wǎng)絡(luò)爬蟲能夠根據(jù)自身規(guī)則抓取信息的程序。作為搜索引擎的基礎(chǔ)構(gòu)件之一，網(wǎng)絡(luò)爬蟲直接面向互聯(lián)網(wǎng)，是搜索引擎的數(shù)據(jù)來源，決定著整個系統(tǒng)的內(nèi)容是否豐富、信息能否得到及時更新。

　　網(wǎng)絡(luò)爬蟲的性能表現(xiàn)直接影響整個搜索引擎的效果。網(wǎng)絡(luò)爬蟲平時會在網(wǎng)絡(luò)上自動爬取有用的數(shù)據(jù)，通過一定的選取機制、過濾機制、錄用機制等，來豐富它們的數(shù)據(jù)庫。

　　事實上，每個搜索引擎的爬蟲機器人都不一樣，它們有著自己的一套“爬取機制”，誰把這個機制優(yōu)化得最好，那么誰就能更快給到用戶真正想要的信息。

　　然而，網(wǎng)絡(luò)爬蟲卻不總是合法的——網(wǎng)絡(luò)惡意爬蟲則會突破網(wǎng)站機器人協(xié)議的禁止爬取要求（規(guī)定在robots.txt文件的Disallow部分），爬取網(wǎng)站的核心數(shù)據(jù)資源，并可能極大地損耗被爬取網(wǎng)站服務(wù)器的性能。實際上，對于刷個短視頻，個人信息和需求竟被他人獲取，不久后，私人信箱中還會收到仿佛“量身定制”的推銷信息的現(xiàn)象，其實就源于所謂的爬蟲軟件。

　　顯然，此次案件中涉及的“爬蟲”軟件就是利用技術(shù)手段突破短視頻平臺的反爬措施，非法獲取后臺服務(wù)器內(nèi)指定的數(shù)據(jù)文件。

　　無疑，網(wǎng)絡(luò)爬蟲作為數(shù)據(jù)資源獲取和利用的重要手段，但無論是私法領(lǐng)域數(shù)據(jù)確權(quán)還是刑法領(lǐng)域數(shù)據(jù)法益保護，網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的正當(dāng)性、有效性都源于數(shù)據(jù)主體的授權(quán)，而技術(shù)一旦被惡意使用，在技術(shù)盛行的時代帶來的傷害，也將是超過人們想像的。

　　近五千網(wǎng)站被曝“偷看”用戶輸入：還沒點確定，信息就被發(fā)走

　　只是在登錄界面打了幾個字母，沒確認沒提交，網(wǎng)站居然就已經(jīng)抓捕到了鍵入內(nèi)容？

　　是的，根據(jù)來自歐洲頂尖研究型學(xué)術(shù)院校——荷蘭拉德堡德大學(xué)、洛桑大學(xué)、魯汶大學(xué)的三位科學(xué)家的最新研究，全世界前10萬排名的網(wǎng)站中，有近5000個門戶網(wǎng)站都有過這樣的行為，如福克斯新聞、商業(yè)內(nèi)幕（business insider）、時代（Time）等網(wǎng)站。

　　通過研究人員自制的爬蟲腳本可以看到，在某一網(wǎng)站的登錄界面輸入郵件地址，鼠標(biāo)移動到下一個輸入框后，網(wǎng)站后臺就已經(jīng)準(zhǔn)確抓取到了已輸入數(shù)據(jù)：

　　用研究人員的話來說，就是“當(dāng)點擊下一個字段時，它們會收集前一個字段”，包括用戶每一次修改的數(shù)據(jù)，甚至是賬號密碼。

　　那么，這樣的抓取行為到底是如何做到的？

　　事實上，很多常見的登錄窗口都是表單網(wǎng)頁，這是HTML中的一種概念，可以使網(wǎng)頁和用戶之間進行交互，并將用戶填寫的數(shù)據(jù)發(fā)送給服務(wù)器端。所以這些網(wǎng)頁也可以被看作是一張或多張表格，用戶名、密碼、郵件地址等輸入信息就是表格中的一行行數(shù)據(jù)。

　　不僅為了滿足基本的網(wǎng)頁交互需求，還出于其他要求——比如檢查鍵入的數(shù)據(jù)是否符合要求——用戶的所有在線活動，包括鼠標(biāo)點擊和鍵入數(shù)據(jù)，對于網(wǎng)頁來說都是“透明”且“可抓取”的。

　　于是，很多網(wǎng)站便會使用一些第三方追蹤器來監(jiān)測用戶，用于提供服務(wù)、廣告、營銷活動。這些活動的合法與否，就在于網(wǎng)頁只是暫時抓取數(shù)據(jù)進行合法的交互，還是進行了行跨網(wǎng)站、跨平臺和持久的識別。

　　以Meta為例，它曾開發(fā)過一款第三方的網(wǎng)站事件管理/收集工具，Meta Pixel。Meta Pixel有一種叫做“自動高級匹配”的功能，可以自動從網(wǎng)頁的表單數(shù)據(jù)中收集個人標(biāo)識符，通過這一身份認證，就可以鎖定同一用戶在不同平臺上的操作，進而測量廣告的轉(zhuǎn)化率和成效。

　　同時，官方文檔里也寫明：在用戶提交表單時，Meta Pixel才會觸發(fā)數(shù)據(jù)收集。

　　但研究人員在調(diào)查中發(fā)現(xiàn)，Meta Pixel腳本在沒有識別到提交按鈕，或者監(jiān)聽（表單）提交事件時，也會觸發(fā)數(shù)據(jù)收集機制。

　　也就是說，安裝有這一追蹤器的網(wǎng)站，在用戶點擊提交按鈕，甚至放棄表單關(guān)閉網(wǎng)頁之前，就已經(jīng)收集到了個人數(shù)據(jù)。研究團隊統(tǒng)計發(fā)現(xiàn)，有超過1.5萬個網(wǎng)站可能通過Meta Pixel泄露了信息。

　　此外，另一個較為出名的第三方網(wǎng)站事件管理工具，TikTok Pixel也有和Meta Pixel同樣的問題，涉及了上百個網(wǎng)站的信息泄露。

　　研究人員分別選出了美國和歐盟地區(qū)的十大泄露信息次數(shù)最多的網(wǎng)站，可以看到，其中的第三方網(wǎng)站事件管理工具除了上述兩家，還有taboola、Bizible等廣告商。

　　據(jù)了解，三位研究人員Asuman Senol、Gunes Acar、Mathias Humbert從去年開始調(diào)查，共爬取了10萬多個網(wǎng)站。在發(fā)現(xiàn)問題后，團隊已經(jīng)在今年3月份向Meta提交了一份錯誤報告，該公司很快指派了一名工程師處理這個案件，但自那以后，就再也沒有收到過更新報告。

　　而TikTok在得到通知后，也并沒有進一步的回應(yīng)。研究團隊表示，針對上述問題，他們已經(jīng)開發(fā)了一款檢測網(wǎng)頁非法表單的插件，并將在今年8月份的Usenix安全會議上展示他們的發(fā)現(xiàn)，包括調(diào)查結(jié)果和爬蟲程序的構(gòu)成。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

全国首例！短视频平台领域“网络爬虫”案件！提供软件者被判刑一年六个月！

日期： 2022-05-16

來源：e安在线

相關(guān)內(nèi)容