大數(shù)據(jù)時(shí)代,數(shù)據(jù)給人類生產(chǎn)、生活等各方面帶來巨大便利的同時(shí),也誘發(fā)了很多問題。數(shù)據(jù)濫用層面,最典型的表現(xiàn)是價(jià)格操縱問題,商家利用算法的不透明性及局限性開展“千人千價(jià)”“動(dòng)態(tài)定價(jià)”“大數(shù)據(jù)殺熟”等,以不正當(dāng)方式賺取巨額利潤。數(shù)據(jù)安全層面,個(gè)人信息收集亂象叢生,商家利用用戶畫像技術(shù)深度挖掘個(gè)人信息,諸多移動(dòng)互聯(lián)網(wǎng)應(yīng)用利用隱私條款的默認(rèn)勾選、霸王條款獲取用戶信息,甚至未經(jīng)授權(quán)奪取用戶信息。另外,不法分子利用信息系統(tǒng)漏洞和黑客技術(shù)盜取個(gè)人信息,造成個(gè)人信息泄露嚴(yán)重。泄露數(shù)據(jù)被放在黑市中銷售,導(dǎo)致“撞庫”攻擊頻發(fā),進(jìn)一步加劇了個(gè)人信息泄露現(xiàn)象,數(shù)據(jù)黑產(chǎn)已發(fā)展成一條成熟的產(chǎn)業(yè)鏈。這些數(shù)據(jù)濫用和數(shù)據(jù)安全問題將成為影響數(shù)據(jù)價(jià)值釋放的“絆腳石”。
1. 認(rèn)同、偏見與從眾
大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)上的內(nèi)容呈現(xiàn)出爆炸式的增長趨勢(shì),如何從紛繁復(fù)雜的網(wǎng)絡(luò)內(nèi)容中挑選出自己需要的信息,成為諸多互聯(lián)網(wǎng)用戶的煩惱。起初,搜索引擎的出現(xiàn)緩解了這種問題。但是,搜索引擎往往需要用戶知道自己想要獲取哪方面的內(nèi)容,才能通過搜索尋找目標(biāo)。例如,電影愛好者需要知道自己喜歡哪種類型的電影才能進(jìn)一步搜索,但問題在于很多時(shí)候我們對(duì)自己的喜好也不甚了解。此時(shí),數(shù)據(jù)挖掘算法應(yīng)運(yùn)而生。相關(guān)算法通過用戶的歷史數(shù)據(jù)推送符合用戶偏好的內(nèi)容,并已廣泛應(yīng)用在微博、豆瓣、今日頭條等社交和資訊類應(yīng)用中。數(shù)據(jù)挖掘算法就像是“通人性”的機(jī)器,接收人類已有的數(shù)據(jù)進(jìn)行學(xué)習(xí),推理和產(chǎn)出內(nèi)容也是按照人類的思考方式開展,因此輸出內(nèi)容也帶有人類的價(jià)值觀與偏好。
既然數(shù)據(jù)挖掘算法“通人性”,那么算法很可能也存在人性中認(rèn)識(shí)局限的成份。所以,我們很有必要先從社會(huì)心理學(xué)的角度,看看人類社會(huì)中存在的認(rèn)同、偏見和從眾等認(rèn)識(shí)局限現(xiàn)象。
認(rèn)同是指?jìng)€(gè)體對(duì)比自己地位或成就高的人的肯定,以消除個(gè)體在現(xiàn)實(shí)生活中因無法獲得成功或滿足時(shí)產(chǎn)生的挫折和焦慮。認(rèn)同可借由心理上分享他人的成功,為個(gè)人帶來不易得到的滿足感或增強(qiáng)個(gè)人的自信。例如,“狐假虎威”“東施效顰”都是認(rèn)同的例子。認(rèn)同有時(shí)也可能是認(rèn)同一個(gè)組織。例如,一個(gè)自幼失學(xué)的人加入某學(xué)術(shù)研究團(tuán)體,成為該團(tuán)體的榮譽(yù)會(huì)員,并且不斷向人炫耀他在該團(tuán)體中的重要性。
偏見是對(duì)某一個(gè)人或團(tuán)體所持有的一種不公平、不合理的消極否定的態(tài)度,是人們脫離客觀事實(shí)而建立起來的對(duì)人和事物的消極認(rèn)識(shí)。大多數(shù)情況下,偏見是根據(jù)某些社會(huì)群體的成員身份而對(duì)其成員形成的一種態(tài)度,并且往往是不正確的否定或懷有敵意的態(tài)度。例如,人容易根據(jù)性別、膚色、宗教信仰等對(duì)其他人或團(tuán)體產(chǎn)生偏見和歧視。
從眾是指?jìng)€(gè)人的觀念與行為由于群體的引導(dǎo)和壓力,不知不覺或不由自主地與多數(shù)人保持一致的社會(huì)心理現(xiàn)象。通常情況下,多數(shù)人的意見往往是對(duì)的,服從多數(shù)一般不會(huì)錯(cuò),但這會(huì)導(dǎo)致個(gè)人缺乏分析,不做獨(dú)立思考,不管是非曲直地一概服從多數(shù),產(chǎn)生一種消極的盲目從眾心理。法國社會(huì)心理學(xué)家古斯塔夫·勒龐的著作《烏合之眾:大眾心理研究》就是一本研究大眾心理學(xué)的作品。勒龐在書中闡述了群體以及群體心理的特征,指出當(dāng)個(gè)人是一個(gè)孤立的個(gè)體時(shí),他有著自己鮮明的個(gè)性化特征;但當(dāng)這個(gè)人融入了群體后,他的所有個(gè)性都會(huì)被這個(gè)群體淹沒,他的思想立刻就會(huì)被群體的思想取代。
2. 只讓你看到認(rèn)同的內(nèi)容
目前,算法有一個(gè)很明顯的特點(diǎn),也是一個(gè)局限性,就是只讓人們看到認(rèn)同的內(nèi)容。以常用的個(gè)性化推薦算法為例,個(gè)性化推薦算法發(fā)揮作用需要兩方面的基礎(chǔ),一方面是算法訓(xùn)練數(shù)據(jù),另一方面是算法模型設(shè)計(jì)。從算法訓(xùn)練數(shù)據(jù)來看,往往需要采集諸多用戶的個(gè)人偏好數(shù)據(jù)。例如,對(duì)電影、手機(jī)、新聞的喜好。從算法模型設(shè)計(jì)來看,該算法的原理在于根據(jù)用戶的個(gè)人偏好數(shù)據(jù)尋找興趣類似的用戶,進(jìn)而做出推薦。以推薦電影為例,通過對(duì)比個(gè)人偏好數(shù)據(jù),可能會(huì)發(fā)現(xiàn)張三和李四喜歡看同樣的幾部電影,而且都不喜歡看同樣的另外幾部電影。由此可以判斷,兩個(gè)用戶在電影方面的喜好極為類似。于是,將張三喜歡但李四還未看過的電影推薦給李四,也就實(shí)現(xiàn)了個(gè)性化推薦。這種推薦算法是基于對(duì)用戶的協(xié)同過濾,如圖1所示。它運(yùn)用了日常生活中“物以類聚,人以群分”的特性,不需要判斷目標(biāo)用戶的喜好,重點(diǎn)在于發(fā)現(xiàn)目標(biāo)用戶認(rèn)同的用戶群體,然后在喜好類似的群體內(nèi)部互相開展推薦活動(dòng)。該算法在學(xué)術(shù)界和企業(yè)界得到了廣泛的認(rèn)可,基于此而加以改進(jìn)的各類算法層出不窮。
圖1 協(xié)同過濾算法原理示意圖
但是,如果這類個(gè)性化推薦持續(xù)開展,算法就可能陷入一個(gè)怪圈——只讓您看到認(rèn)同的內(nèi)容。例如,一款為用戶推送資訊的App,每天會(huì)為用戶推送符合其喜好或被其認(rèn)同的資訊。用戶高度關(guān)注體育新聞,則最終App推送的新聞會(huì)越來越聚焦于體育資訊,無形中會(huì)減少用戶對(duì)社會(huì)民生、國家大事等內(nèi)容的關(guān)注。這也就是為什么人們有時(shí)候打開社交和資訊類App發(fā)現(xiàn)推送的基本都是某一類內(nèi)容的原因。
從這個(gè)意義上講,盡管個(gè)性化推薦算法設(shè)計(jì)的本意在于幫助用戶發(fā)掘信息,但同時(shí)也會(huì)限制用戶的眼界和思維,使用戶固步自封在自我認(rèn)同的圈子里。這與人類固有的認(rèn)同、偏見和從眾心理狀態(tài)及社會(huì)屬性有關(guān)。由于人類的認(rèn)知有先天的局限性,根據(jù)人類思維創(chuàng)造的算法也不可避免地存在局限性。這個(gè)問題正逐步被計(jì)算機(jī)學(xué)者和工程師認(rèn)識(shí),他們?yōu)樗惴ǖ脑u(píng)判增加了多樣性指標(biāo)、新穎性指標(biāo)和覆蓋率指標(biāo),即算法的推薦結(jié)果不能僅僅集中于某一類內(nèi)容。不過,目前學(xué)術(shù)界更看重準(zhǔn)確性指標(biāo),而企業(yè)界在利益驅(qū)使下缺乏優(yōu)化多樣性指標(biāo)、新穎性指標(biāo)和覆蓋率指標(biāo)的動(dòng)力。各項(xiàng)指標(biāo)的簡介如表1所示。
表2 個(gè)性化推薦算法評(píng)價(jià)指標(biāo)簡介
有人可能會(huì)問,即便如此,這又能對(duì)個(gè)人和社會(huì)產(chǎn)生多大的影響呢?這個(gè)影響可不??!因?yàn)閭€(gè)性化推薦算法并不僅僅在資訊類App中運(yùn)用,有些以內(nèi)容創(chuàng)作為主的行業(yè)也正在運(yùn)用這種算法。網(wǎng)飛(Nexflix)公司創(chuàng)立于1997年,最初主要經(jīng)營DVD租賃業(yè)務(wù)。1998年3月,公司上線了全球第一家線上DVD租賃商店,擁有925部電影,幾乎是當(dāng)時(shí)所有的DVD電影存量。1999年,公司推出了按月訂閱的模式,迅速在行業(yè)里建立起口碑。隨后,由于DVD機(jī)的價(jià)格日益便宜,成為普通百姓都能消費(fèi)得起的產(chǎn)品,其用戶量也得到巨幅增長。2005年,公司開始提供在線視頻流媒體服務(wù),后來又推出了Netflix Prize算法大賽,出資100萬美元獎(jiǎng)勵(lì)開發(fā)者為他們的優(yōu)化電影推薦算法。2012年底,網(wǎng)飛公司已在全球擁有2940萬訂閱用戶。當(dāng)年,網(wǎng)飛公司開始嘗試自制內(nèi)容,并于2013年推出《紙牌屋》。超高的內(nèi)容質(zhì)量和一次放出整季內(nèi)容的發(fā)行方式讓它瞬間風(fēng)靡全球。如今,網(wǎng)飛公司的市值已超越迪士尼,在全球互聯(lián)網(wǎng)企業(yè)中排名前十位。
回顧網(wǎng)飛公司20多年來的快速發(fā)展史,個(gè)性化推薦起到了舉足輕重的作用。以《紙牌屋》為例,網(wǎng)飛公司曾經(jīng)專門記錄過觀眾在觀劇時(shí)的相關(guān)操作,包括在哪個(gè)場(chǎng)景暫停、在什么劇情快進(jìn)及反復(fù)看了哪幾分鐘等,由此判斷劇迷們喜歡的演員、喜聞樂見的情節(jié)和對(duì)劇情走勢(shì)的期待,并根據(jù)這一系列“情報(bào)”指導(dǎo)《紙牌屋》后續(xù)劇情的拍攝、演員的選取和臺(tái)詞的撰寫??梢哉f,《紙牌屋》獲得的巨大成功正是基于個(gè)性化算法推薦和大數(shù)據(jù)的應(yīng)用。網(wǎng)飛公司的推薦算法到底有多厲害?根據(jù)網(wǎng)飛公司產(chǎn)品創(chuàng)新副總裁卡洛斯·尤瑞貝·戈麥斯(Carlos Uribe-Gomez)和首席產(chǎn)品官尼爾·亨特(Neil Hunt)的一份報(bào)告,算法能夠?yàn)榫W(wǎng)飛公司每年節(jié)省10億美元。不過,我們也應(yīng)該看到一個(gè)結(jié)果,那就是這種完全投觀眾所好的算法讓人們只看到自己喜好或認(rèn)同的東西,因而會(huì)進(jìn)一步加劇人們認(rèn)知中的局限性。
3. 公平性缺失愈發(fā)嚴(yán)重
隨著數(shù)據(jù)挖掘算法的廣泛應(yīng)用,還出現(xiàn)了另一個(gè)突出的問題,即算法輸出可能具有不公正性,甚至歧視性。2018年,IG奪冠的喜訊讓互聯(lián)網(wǎng)沸騰。IG戰(zhàn)隊(duì)老板隨即在微博抽獎(jiǎng),隨機(jī)抽取113位用戶,給每人發(fā)放1萬元現(xiàn)金作為獎(jiǎng)勵(lì)??墒浅楠?jiǎng)結(jié)果令人驚奇,獲獎(jiǎng)名單包含112名女性獲獎(jiǎng)?wù)吆?名男性獲獎(jiǎng)?wù)?,女性獲獎(jiǎng)?wù)邤?shù)量是男性的112倍。然而,官方數(shù)據(jù)顯示,在本次抽獎(jiǎng)中,所有參與用戶的男女比率是1: 1.2,性別比并不存在懸殊差異。于是,不少網(wǎng)友開始質(zhì)疑微博的抽獎(jiǎng)算法,甚至有用戶主動(dòng)測(cè)試抽獎(jiǎng)算法,設(shè)置獲獎(jiǎng)人數(shù)大于參與人數(shù),發(fā)現(xiàn)依然有大量用戶無法獲獎(jiǎng)。這些無法獲獎(jiǎng)的用戶很有可能已經(jīng)被抽獎(jiǎng)算法判斷為“機(jī)器人”,在未來的任何抽獎(jiǎng)活動(dòng)中都可能沒有中獎(jiǎng)機(jī)會(huì),因而引起網(wǎng)友們紛紛測(cè)算自己是否為“垃圾用戶”?!拔⒉┧惴ㄊ录币粫r(shí)鬧得滿城風(fēng)雨。
其實(shí),這并非人們第一次質(zhì)疑算法背后的公正性。近幾年,眾多科技公司的算法都被檢測(cè)出帶有歧視性:在谷歌搜索中,男性會(huì)比女性有更多的機(jī)會(huì)看到高薪招聘消息;微軟公司的人工智能聊天機(jī)器人Tay出乎意料地被“教”成了一個(gè)集性別歧視、種族歧視等于一身的“不良少女”……這些事件都曾引發(fā)人們的廣泛關(guān)注。即使算法設(shè)計(jì)者的本意是希望為用戶推薦有用信息、對(duì)圖片進(jìn)行機(jī)器識(shí)別、使聊天機(jī)器人能夠源源不斷地學(xué)習(xí)人類對(duì)話的方式,但往往是在算法決策的“黑匣子”面前,人們無法了解算法的決策過程,只能了解最終結(jié)果。
為什么大數(shù)據(jù)算法會(huì)出現(xiàn)歧視呢?計(jì)算機(jī)領(lǐng)域有個(gè)縮寫詞語——GIGO (Garbage in,Garbage Out),大意是“輸入的如果是垃圾數(shù)據(jù),那么輸出的也將會(huì)是垃圾數(shù)據(jù)”。在大數(shù)據(jù)領(lǐng)域也有類似的說法,《自然》雜志曾用BIBO(Bias In,Bias Out,即“偏見進(jìn),偏見出”)表示數(shù)據(jù)的質(zhì)量與算法結(jié)果準(zhǔn)確程度的強(qiáng)關(guān)聯(lián)性。在選擇使用什么樣的數(shù)據(jù)時(shí),人們往往容易存在歧視心態(tài),這會(huì)直接影響輸出的結(jié)果。例如,在導(dǎo)航系統(tǒng)最快的路線選擇中,系統(tǒng)設(shè)計(jì)者只考慮到關(guān)于道路的信息,而不包含公共交通時(shí)刻表或自行車路線,從而使沒有車輛的人處于不利狀況。另外,可能在收集數(shù)據(jù)時(shí)就缺乏技術(shù)嚴(yán)密性和全面性,存在誤報(bào)、漏報(bào)等現(xiàn)象,也會(huì)影響結(jié)果的精準(zhǔn)性。因此,基于數(shù)據(jù)和算法推斷出來的結(jié)果會(huì)使有些人獲得意想不到的優(yōu)勢(shì),而另一些人則處于不公平的劣勢(shì)——這是一種人們難以接受的不公平。
除了造成不公平性,算法歧視還會(huì)不斷剝削消費(fèi)者的個(gè)人財(cái)富?!督?jīng)濟(jì)學(xué)家》雜志顯示,2014年在排名前100的最受歡迎的網(wǎng)站中,超過1300家企業(yè)在追蹤消費(fèi)者。利用算法技術(shù),企業(yè)利潤獲得大幅增加。但是,羊毛出在羊身上,這些利潤實(shí)際均來自消費(fèi)者。尤其是隨著算法在自動(dòng)駕駛、犯罪風(fēng)險(xiǎn)評(píng)估、疾病預(yù)測(cè)等領(lǐng)域中越來越廣泛和深入的應(yīng)用,算法歧視甚至?xí)?duì)個(gè)體生命構(gòu)成潛在的威脅。
在國外,算法歧視也備受關(guān)注。2014年,美國白宮發(fā)布的大數(shù)據(jù)研究報(bào)告就提到算法歧視問題,認(rèn)為算法歧視可能是無意的,也可能是對(duì)弱勢(shì)群體的蓄意剝削。2016年,美國白宮專門發(fā)布《大數(shù)據(jù)報(bào)告:算法系統(tǒng)、機(jī)會(huì)和公民權(quán)利》,重點(diǎn)考察了在信貸、就業(yè)、教育和刑事司法領(lǐng)域存在的算法歧視問題,提醒人們要在立法、技術(shù)和倫理方面予以補(bǔ)救。對(duì)于算法歧視問題,企業(yè)界和學(xué)術(shù)界正在嘗試技術(shù)和制度層面的解決方案。技術(shù)層面,例如,微軟程序員亞當(dāng)·卡萊(Adam Kalai)與波士頓大學(xué)的科學(xué)家合作研究一種名為“詞向量”的技術(shù),目的是分解算法中存在的性別歧視。除了技術(shù)層面,制度和規(guī)則也至關(guān)重要。在人類社會(huì)中,人們可以通過訴訟、審查等程序來修正許多不公平的行為和事件。對(duì)于算法而言,類似的規(guī)則同樣必不可少。事后對(duì)算法進(jìn)行審查不是一件容易的事,最好的辦法是提前構(gòu)建相關(guān)制度和規(guī)則,這應(yīng)該成為未來社會(huì)各界共同努力的方向。