《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 網(wǎng)絡(luò)爬蟲無處不在,應(yīng)當(dāng)如何規(guī)制?

網(wǎng)絡(luò)爬蟲無處不在,應(yīng)當(dāng)如何規(guī)制?

2021-10-28
來源:財(cái)經(jīng)雜志-財(cái)經(jīng)E法

大數(shù)據(jù)時(shí)代,除直接通過用戶采集,另一個(gè)主要的數(shù)據(jù)來源就是使用網(wǎng)絡(luò)爬蟲采集公開信息。爬蟲的使用到了何種程度?有業(yè)內(nèi)人士稱,互聯(lián)網(wǎng)50%以上,甚至更高的流量其實(shí)都是爬蟲貢獻(xiàn)的。對(duì)某些熱門網(wǎng)頁,爬蟲的訪問量甚至可能占據(jù)了該頁面總訪問量的90%以上。

  從技術(shù)角度來看,爬蟲就是通過程序去模擬人類上網(wǎng)或者瀏覽網(wǎng)頁或者APP行為,再從中抓取爬蟲作者所需要的信息的過程。隨著數(shù)據(jù)產(chǎn)業(yè)的不斷發(fā)展,數(shù)據(jù)價(jià)值的日益高漲,對(duì)于數(shù)據(jù)的爭(zhēng)奪日趨激烈?!芭老x”與“反爬蟲”成為無休止的“攻防對(duì)抗”,一些爬蟲違反網(wǎng)站意愿,對(duì)網(wǎng)站進(jìn)行未經(jīng)授權(quán)的訪問,獲取了網(wǎng)站大量公開或非公開的數(shù)據(jù),由此引發(fā)諸多法律爭(zhēng)議。

  10月23日,杭州長(zhǎng)三角大數(shù)據(jù)研究院、上海市楊浦區(qū)人民檢察院、上海市企業(yè)法律顧問協(xié)會(huì)、浙江省企業(yè)法律顧問協(xié)會(huì)與《財(cái)經(jīng)》商業(yè)治理研究院共同發(fā)起“長(zhǎng)三角數(shù)據(jù)合規(guī)論壇暨數(shù)據(jù)爬蟲的法律規(guī)制研討會(huì)”,邀請(qǐng)了多位重量級(jí)法律學(xué)者、法官、檢察官、互聯(lián)網(wǎng)從業(yè)者從“數(shù)據(jù)爬蟲技術(shù)與產(chǎn)業(yè)影響”、“數(shù)據(jù)爬蟲的民法責(zé)任”、“數(shù)據(jù)爬蟲的刑事合規(guī)”等不同角度展開討論。

  01

  爬蟲無處不在

  “爬蟲應(yīng)用場(chǎng)景廣泛,合規(guī)與不合規(guī)的場(chǎng)景都有。例如,抓取電商網(wǎng)站的評(píng)價(jià)數(shù)據(jù)做市場(chǎng)調(diào)研;做數(shù)字內(nèi)容的可以利用爬蟲去抓取網(wǎng)絡(luò)相應(yīng)內(nèi)容;抓取裁判文書網(wǎng)數(shù)據(jù),進(jìn)行優(yōu)化后推出“付費(fèi)版數(shù)據(jù)庫”;企查查、天眼查也在利用爬蟲技術(shù)對(duì)政府公開數(shù)據(jù)實(shí)現(xiàn)商業(yè)使用。”歐萊雅中國(guó)區(qū)數(shù)字化負(fù)責(zé)人劉煜介紹。

  劉煜對(duì)爬蟲的基本原理進(jìn)行了解釋,通常爬蟲會(huì)定位網(wǎng)站所有的URL鏈接,獲取頁面里的數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行拆解利用。不管在網(wǎng)頁端還是移動(dòng)端,基本爬蟲都基于這樣的原理。使用爬蟲技術(shù)對(duì)于‘爬蟲一方’和‘被爬蟲一方’都具有風(fēng)險(xiǎn),輕則網(wǎng)站崩潰、重則面臨牢獄之災(zāi)。

  具體來說,對(duì)于那些小網(wǎng)站或者技術(shù)實(shí)力弱的網(wǎng)站,如果爬蟲7X24小時(shí)持續(xù)訪問,可能因服務(wù)器無法承受激增的流量,導(dǎo)致網(wǎng)站崩潰。更麻煩的是,對(duì)編寫爬蟲的程序員來說,如果爬到不該爬取數(shù)據(jù),再利用這些數(shù)據(jù),可能屬于違法行為。

  劉煜表示,在不同場(chǎng)景中,對(duì)于爬蟲的態(tài)度截然不同。例如,搜索引擎爬蟲受人歡迎,因?yàn)樗阉饕婺芴岣弑慌谰W(wǎng)站的曝光率;但大多數(shù)網(wǎng)站也會(huì)基于服務(wù)器的風(fēng)險(xiǎn)、或者種種商業(yè)原因,不希望爬蟲抓取數(shù)據(jù)。拒絕分兩種,‘反爬’機(jī)制,‘反反爬’機(jī)制。網(wǎng)站可以去制定相應(yīng)策略或者技術(shù)手段,去防止爬蟲抓取數(shù)據(jù)。

  網(wǎng)站常見的應(yīng)對(duì)策略是放置Robots協(xié)議,該協(xié)議由荷蘭工程師傅馬丁·科斯特(Martijn Koster )在1994年編寫,后來成為數(shù)據(jù)爬取方和被爬取方之間通行的溝通機(jī)制。中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)2012年發(fā)布的《中國(guó)互聯(lián)網(wǎng)行業(yè)自律公約》中,將遵守Robots協(xié)議認(rèn)定為“國(guó)際通行的行業(yè)管理與商業(yè)規(guī)則”。

    但劉煜稱,Robots協(xié)議更像君子協(xié)議,只能起到告示作用,起不到防范作用。爬蟲技術(shù)、反爬蟲技術(shù)、反反爬蟲技術(shù)一直在迭代,只要網(wǎng)站、App能夠被用戶訪問,就存在被爬取的可能。

  惡劣的爬蟲手段會(huì)造成社會(huì)資源和技術(shù)資源的浪費(fèi),這些資源都來之不易。小紅書總法律顧問曾翔表示,有的爬蟲會(huì)通過“模擬真人訪問”或者“通過協(xié)議破解”來爬取數(shù)據(jù)?!斑@些都是不光彩的手段,被爬取得的網(wǎng)站不得不采取攻防措施,造成不少企業(yè)資源的浪費(fèi)?!?/p>

  曾翔說,對(duì)內(nèi)容平臺(tái)而言,遭遇爬蟲攻擊極易對(duì)于自身以及用戶享有的知識(shí)產(chǎn)權(quán)造成侵害。通常爬取都是有目的的,如果爬取到核心商業(yè)機(jī)密,可直接用到其他地方形成競(jìng)爭(zhēng)優(yōu)勢(shì)。另外,在他看來,爬蟲還涉及到對(duì)于互聯(lián)網(wǎng)公共秩序的破壞?!芭廊〉臄?shù)據(jù)能否有效利用,是否被置于監(jiān)管之下,這些數(shù)據(jù)流向何方,都是非常大的問號(hào)?!?/p>

  02

  爬蟲的民事責(zé)任判定

  “技術(shù)是中立的,但技術(shù)應(yīng)用永遠(yuǎn)不是中立的?!毙吕思瘓F(tuán)訴訟總監(jiān)張喆表示,在討論爬蟲技術(shù)原理時(shí),更重要的是看爬蟲技術(shù)用來干什么,看它的行為本身是否具有正當(dāng)性。

  近期,北京市高級(jí)人民法院(下稱“北京高院”)對(duì)“今日頭條訴微博不正當(dāng)競(jìng)爭(zhēng)案”作出二審判決。此案中,微博因在Robots協(xié)議中設(shè)置黑名單,限制字節(jié)跳動(dòng)公司抓取相關(guān)網(wǎng)頁內(nèi)容被訴。法院認(rèn)為,微博是在行使企業(yè)自主經(jīng)營(yíng)權(quán)范疇內(nèi)的正當(dāng)行為,并不構(gòu)成不正當(dāng)競(jìng)爭(zhēng),同時(shí)撤銷一審判決等。張喆表示,司法機(jī)關(guān)對(duì)Robots協(xié)議評(píng)價(jià)是“一體兩面”的。

  在2020年北京高院對(duì)“360訴百度不正當(dāng)競(jìng)爭(zhēng)案”做出判決時(shí),認(rèn)為百度在缺乏合理、正當(dāng)理由的情況下,不得以主體作為區(qū)分,去限制訪問搜索引擎抓取網(wǎng)站網(wǎng)頁內(nèi)容(太拗口了,簡(jiǎn)單點(diǎn))。而在“今日頭條訴微博不正當(dāng)競(jìng)爭(zhēng)案”中,法院確立的原則是,企業(yè)有權(quán)在自主經(jīng)營(yíng)范圍內(nèi)去限制其他訪問者,只有在違反公共利益以及侵犯消費(fèi)者權(quán)利的時(shí)候,才有可能被認(rèn)定其行為不正當(dāng)。

  在華東政法大學(xué)法律學(xué)院教授、數(shù)據(jù)法律研究中心主任高富平看來,爬蟲和數(shù)據(jù)產(chǎn)業(yè)是連一起的,現(xiàn)在所謂的數(shù)據(jù)公司談及的數(shù)據(jù)智能、大數(shù)據(jù)分析基本上是抓取數(shù)據(jù),再進(jìn)行挖掘分析?,F(xiàn)在普遍認(rèn)為爬蟲是項(xiàng)中立性的技術(shù),但更多時(shí)候,使用者是為實(shí)現(xiàn)‘不勞而獲’的目的。

  高富平認(rèn)為,不談?wù)摂?shù)據(jù)合法生產(chǎn)者具有控制權(quán),難以對(duì)爬蟲合法性進(jìn)行判斷。國(guó)內(nèi)外爬蟲的合法性邊界探討,主要著眼從數(shù)據(jù)爬取的手段、目的兩個(gè)方面。

  從手段上來看,爬蟲無視網(wǎng)站的訪問控制,或者假扮為合法訪問者,會(huì)被認(rèn)為是不合法的;從目的上來看,數(shù)據(jù)爬取一方是否對(duì)被爬取一方提供的部分產(chǎn)品或服務(wù)進(jìn)行“實(shí)質(zhì)性替代”,如果屬“實(shí)質(zhì)性替代”,則目的便是不合法。

  網(wǎng)站合法積累數(shù)據(jù)資源,那么網(wǎng)站生產(chǎn)端就可以對(duì)其進(jìn)行控制使用,更重要的是承認(rèn)數(shù)據(jù)控制者可以基于商業(yè)目的來開放數(shù)據(jù),通過許可使用方式、交換、交易等方式讓數(shù)據(jù)能夠被更多人使用?!备吒黄綄?duì)此補(bǔ)充道,“基于數(shù)據(jù)合法生產(chǎn)者具有控制權(quán)的前提,就可以對(duì)于那些無視Robots協(xié)議的爬取者進(jìn)行打擊?!?/p>

  上海浦東法院知識(shí)產(chǎn)權(quán)庭法官徐弘韜認(rèn)為,Robots協(xié)議與數(shù)據(jù)流轉(zhuǎn)有兩個(gè)問題需要考慮:第一,“互聯(lián)互通”與數(shù)據(jù)共享之間的度如何把握;第二,當(dāng)下各互聯(lián)網(wǎng)產(chǎn)業(yè)經(jīng)營(yíng)者采取的Robots協(xié)議策略是否可能導(dǎo)致數(shù)據(jù)孤島?;ヂ?lián)互通的實(shí)質(zhì)在于確保數(shù)據(jù)有序流轉(zhuǎn),而不是強(qiáng)行要求互聯(lián)網(wǎng)產(chǎn)業(yè)經(jīng)營(yíng)者對(duì)己方平臺(tái)內(nèi)的數(shù)據(jù)資源向競(jìng)爭(zhēng)對(duì)手全面開放。在“互聯(lián)互通”的語境下,“有序”和“流轉(zhuǎn)”同等重要、缺一不可,需排除假借“互聯(lián)互通”妨礙公平競(jìng)爭(zhēng)、危害用戶數(shù)據(jù)安全的行為。

  在某新媒體公司爬取微信公眾平臺(tái)數(shù)據(jù)案中,杭州互聯(lián)網(wǎng)法院已經(jīng)亮明觀點(diǎn)。網(wǎng)絡(luò)平臺(tái)設(shè)置了Robots協(xié)議,希望在競(jìng)爭(zhēng)過程中還是能遵守競(jìng)爭(zhēng)規(guī)范,或者至少能保持一個(gè)互相尊重互相遵守協(xié)議,才是有序的基礎(chǔ)。

  在上述案件中,法院認(rèn)為,任由第三方爬蟲工具爬取公眾號(hào)信息會(huì)打擊平臺(tái)創(chuàng)造積極性,并扭曲大數(shù)據(jù)要素市場(chǎng)競(jìng)爭(zhēng)機(jī)制;從消費(fèi)者利益角度,未經(jīng)授權(quán)爬取信息并進(jìn)行展示,未能尊重信息發(fā)布主體的意愿;從公共利益角度,被告爬取信息后未深度挖掘、創(chuàng)新,也無更深層次的應(yīng)用,未能提升社會(huì)整體公共利益,加之爬取數(shù)據(jù)來源并非正常,難謂正當(dāng)。

  徐弘韜認(rèn)為,數(shù)據(jù)是內(nèi)容產(chǎn)業(yè)的核心競(jìng)爭(zhēng)資源,內(nèi)容平臺(tái)經(jīng)過匯總分析處理后的數(shù)據(jù)往往具有極高經(jīng)濟(jì)價(jià)值。如果要求內(nèi)容平臺(tái)經(jīng)營(yíng)者將其核心競(jìng)爭(zhēng)資源向競(jìng)爭(zhēng)對(duì)手無限開放,不僅有違“互聯(lián)互通”的精神實(shí)質(zhì),也不利于優(yōu)質(zhì)內(nèi)容的不斷更迭和互聯(lián)網(wǎng)產(chǎn)業(yè)的持續(xù)發(fā)展。

  徐弘韜表示,對(duì)非搜索引擎爬蟲的正當(dāng)性判斷,可以歸納為四個(gè)要素:第一看是否尊重被抓取網(wǎng)站預(yù)設(shè)的Robots協(xié)議;第二看是否破壞被抓取網(wǎng)站的技術(shù)措施;第三看是否威脅用戶數(shù)據(jù)的安全;第四從創(chuàng)造性與公共利益的衡量。

  徐弘韜特別指出,包括身份數(shù)據(jù)、行為數(shù)據(jù)等在內(nèi)的用戶數(shù)據(jù),不僅僅是經(jīng)營(yíng)者的競(jìng)爭(zhēng)資源,同樣具有個(gè)人隱私屬性,而此類數(shù)據(jù)的集合更涉及社會(huì)公共利益。如果在抓取數(shù)據(jù)時(shí)危害用戶數(shù)據(jù)安全,其行為不具正當(dāng)性。

  03

  爬蟲涉及刑事合規(guī)

  刑事合規(guī),最初起源于美國(guó),是指國(guó)家以刑法為工具,為推動(dòng)企業(yè)開展合規(guī)管理,建立的一套督促機(jī)制、約束機(jī)制和激勵(lì)機(jī)制。

  2020年,在最高人民檢察院推動(dòng)下,深圳、浙江、江蘇、上海等地基層檢察機(jī)關(guān)積極探索企業(yè)刑事合規(guī)。為了鼓勵(lì)更多企業(yè)進(jìn)行合規(guī)改制,“刑事合規(guī)不起訴”這一全新的刑事訴訟制度在全國(guó)鋪開,嘗試選取有可能建立合規(guī)的涉罪企業(yè),通過企業(yè)認(rèn)罪認(rèn)罰、承諾建立合規(guī)計(jì)劃,進(jìn)而對(duì)企業(yè)采取不起訴措施。

  上海市人民檢察院第二分院第三檢察部副主任吳菊萍表示,刑事合規(guī)主要是為了給涉案企業(yè)一個(gè)整改自救、重新出發(fā)的機(jī)會(huì),也是為了保證社會(huì)經(jīng)濟(jì)的高質(zhì)量發(fā)展。而目前很多企業(yè)所關(guān)注的刑事合規(guī)更多的是在探討其經(jīng)營(yíng)行為如何避免刑事風(fēng)險(xiǎn)。吳菊萍認(rèn)為,企業(yè)利用爬蟲技術(shù)來做數(shù)據(jù)分析,就應(yīng)當(dāng)注重如何落實(shí)刑事合規(guī)。

  吳菊萍表示,“除了木馬病毒程序等本身就不合法的技術(shù),我們?cè)u(píng)判一項(xiàng)與爬蟲技術(shù)相關(guān)的行為是否構(gòu)成犯罪,首先要看行為人用爬蟲技術(shù)干了什么事情,有沒有社會(huì)危害性,然后再去評(píng)判該行為是侵入計(jì)算機(jī)信息系統(tǒng),還是非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù),再看爬取的數(shù)據(jù)涉及的是企業(yè)數(shù)據(jù)還是公民個(gè)人信息,分別適用相關(guān)罪名?!?/p>

其中,還需要考慮到被爬取數(shù)據(jù)的法律屬性到底是財(cái)產(chǎn)還是僅僅只是數(shù)據(jù)。吳菊萍表示,這在司法實(shí)踐中存在較大爭(zhēng)議?!氨热?,我們有個(gè)以非法拘禁的方法強(qiáng)迫對(duì)方交付虛擬貨幣的案件,刑事上認(rèn)定為非法拘禁罪,否定了虛擬貨幣的財(cái)產(chǎn)屬性,民事上判返還財(cái)產(chǎn),認(rèn)可了財(cái)產(chǎn)屬性。”她認(rèn)為,數(shù)據(jù)在數(shù)字經(jīng)濟(jì)發(fā)展中是一個(gè)重要的生產(chǎn)要素,本質(zhì)上應(yīng)當(dāng)具備財(cái)產(chǎn)屬性,但當(dāng)前的法律和司法實(shí)踐還沒有完全跟上。

  華東政法大學(xué)教授張勇對(duì)爬蟲可能涉及到的犯罪行為進(jìn)行分類:從可能侵犯到的權(quán)益上看,包括計(jì)算機(jī)系統(tǒng)安全、個(gè)人信息、版權(quán)、國(guó)家秘密、商業(yè)秘密、市場(chǎng)競(jìng)爭(zhēng)秩序等;從爬取方式來看,可能危害到計(jì)算機(jī)信息系統(tǒng)安全,非法獲取公民個(gè)人信息,非法獲取商業(yè)秘密,破壞版權(quán)技術(shù)保護(hù)措施等;從爬取結(jié)果來看,存在不正當(dāng)競(jìng)爭(zhēng)類、侵犯著作權(quán)類、侵犯人格權(quán)類等問題?!?/p>

  《財(cái)經(jīng)》E法在裁判文書網(wǎng)檢索到54份與爬蟲相關(guān)的刑事判決,涉及多項(xiàng)罪名。其中,被認(rèn)定為侵犯公民個(gè)人信息罪的有26份;非法獲取計(jì)算機(jī)信息系統(tǒng)罪10份;傳播淫穢物品牟利罪5份;破壞計(jì)算機(jī)信息系統(tǒng)罪3份;提供侵入、非法控制計(jì)算機(jī)程序、工具罪3份;侵犯知識(shí)產(chǎn)權(quán)罪3份;非法侵入計(jì)算機(jī)信息系統(tǒng)罪、開設(shè)賭場(chǎng)罪、盜竊罪、詐騙罪各1份。




最后文章空三行圖片.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。