目前,數(shù)千萬(wàn)的人們經(jīng)常使用智能揚(yáng)聲器和語(yǔ)音軟件來(lái)玩游戲、聽(tīng)音樂(lè)或搜尋一些瑣事。而這其中有數(shù)百萬(wàn)人卻越來(lái)越不愿意將這些設(shè)備和它們強(qiáng)大的麥克風(fēng)買(mǎi)回家,因?yàn)樗麄儞?dān)心有人在偷聽(tīng)。

有時(shí)候,的確有人在偷聽(tīng)。
亞馬遜公司在全球雇傭了數(shù)千名員工,以幫助改進(jìn)為Echo音箱供電的Alexa數(shù)字語(yǔ)音助手。研究小組會(huì)監(jiān)聽(tīng)Echo在其主人家中或辦公室里收集到的語(yǔ)音記錄。這些錄音會(huì)被轉(zhuǎn)錄、注釋?zhuān)缓蠓答伒杰浖校伺e的目的是為了消除Alexa對(duì)人類(lèi)語(yǔ)言理解的空白,幫助它更好地響應(yīng)指令。
七名曾參與過(guò)Alexa語(yǔ)音審查程序的人員描述這個(gè)程序時(shí),強(qiáng)調(diào)了在訓(xùn)練軟件算法時(shí)經(jīng)常被忽視的人類(lèi)角色。在營(yíng)銷(xiāo)材料中,亞馬遜稱(chēng)Alexa“生活在云端,并且一直在變得更聰明?!?但是,就像許多為了實(shí)現(xiàn)從經(jīng)驗(yàn)中學(xué)習(xí)的目的而構(gòu)建的軟件工具一樣,人類(lèi)也在對(duì)其進(jìn)行一些教學(xué)。
據(jù)知情人士透露,這個(gè)團(tuán)隊(duì)由一群承包商和亞馬遜全職員工組成,他們?cè)诓ㄊ款D、哥斯達(dá)黎加、印度和羅馬尼亞等地的前哨站工作。這些知情人士簽署了保密協(xié)議,該協(xié)議禁止他們公開(kāi)談?wù)撨@個(gè)項(xiàng)目。
亞馬遜布加勒斯特辦公室的兩名員工稱(chēng),他們每天工作9個(gè)小時(shí),每人每次當(dāng)值時(shí)要分析多達(dá)1000個(gè)音頻片段。布加勒斯特辦公室位于羅馬尼亞首都頗具發(fā)展前景的Pipera區(qū),占據(jù)了環(huán)球價(jià)值大廈(Globalworth building)最高的三層。辦公室里現(xiàn)代化的設(shè)備在搖搖欲墜的基礎(chǔ)設(shè)施中十分顯眼,卻沒(méi)有任何外部標(biāo)志顯示亞馬遜的存在。
這項(xiàng)工作里的大部分內(nèi)容都很平常。波士頓的一名工作人員說(shuō),他為“泰勒·斯威夫特”等特定話(huà)語(yǔ)挖掘了積累的語(yǔ)音數(shù)據(jù),并對(duì)其進(jìn)行了注釋?zhuān)员砻魉阉髡咧傅氖且魳?lè)藝術(shù)家。
偶爾,這些工作人員會(huì)聽(tīng)到Echo的主人可能比較隱私的內(nèi)容,比如,一個(gè)女人在淋浴時(shí)唱得很糟糕,或者一個(gè)孩子大聲呼救。當(dāng)團(tuán)隊(duì)在解析一個(gè)混亂的單詞時(shí)需要幫助或遇到一段有趣的錄音時(shí),他們會(huì)使用內(nèi)部聊天室來(lái)共享文件。
有時(shí)他們會(huì)聽(tīng)到令他們不安的錄音,或者可能是與犯罪有關(guān)的錄音。其中兩名工人說(shuō),他們聽(tīng)到過(guò)他們認(rèn)為是性侵的錄音。當(dāng)類(lèi)似的事情發(fā)生時(shí),他們可能會(huì)在內(nèi)部聊天室里分享經(jīng)驗(yàn),以緩解壓力。亞馬遜表示,當(dāng)員工聽(tīng)到令人不快的事情時(shí),他們有相應(yīng)的程序可以遵循,但兩名羅馬尼亞員工表示,在這樣的情況發(fā)生后他們想尋求指導(dǎo)時(shí),卻被告知這不是亞馬遜的工作。
一位亞馬遜發(fā)言人在一份電子郵件聲明中表示:“我們會(huì)嚴(yán)肅對(duì)待客戶(hù)個(gè)人信息的安全和隱私。為了改善用戶(hù)體驗(yàn),我們只標(biāo)注了一小部分Alexa語(yǔ)音錄音樣本。例如,這些信息可以幫助我們訓(xùn)練我們的語(yǔ)音識(shí)別和自然語(yǔ)言理解系統(tǒng),從而使得Alexa可以更好地理解您的請(qǐng)求,并確保服務(wù)對(duì)每個(gè)人都有效?!?/p>
聲明中還說(shuō),“我們有嚴(yán)格的技術(shù)和操作保障措施,對(duì)濫用我們系統(tǒng)的行為采取零容忍政策。員工不能直接訪(fǎng)問(wèn)作為此工作流一部分的個(gè)人或帳戶(hù)標(biāo)識(shí)信息。所有信息都被高度保密,為了保護(hù)這些信息,我們使用多因素身份驗(yàn)證手段來(lái)限制訪(fǎng)問(wèn)、加密和審核我們的控制程序。”
亞馬遜在其營(yíng)銷(xiāo)和隱私政策材料中沒(méi)有明確表示,一些人正在監(jiān)聽(tīng)Alexa收集的對(duì)話(huà)錄音。該公司在一份常見(jiàn)問(wèn)題列表中表示:“我們利用您對(duì)Alexa的要求來(lái)訓(xùn)練我們的語(yǔ)音識(shí)別和自然語(yǔ)言理解系統(tǒng)?!?/p>
在Alexa的隱私設(shè)置中,該公司允許用戶(hù)在開(kāi)發(fā)新功能時(shí)禁用語(yǔ)音記錄。根據(jù)彭博社查看的截圖顯示,發(fā)送給Alexa審計(jì)員的錄音不提供用戶(hù)的全名和地址,但是卻與賬號(hào)、用戶(hù)名和設(shè)備序列號(hào)相關(guān)。
外媒在今年早些時(shí)候曾報(bào)道稱(chēng),亞馬遜旗下Ring公司的員工通過(guò)在公司門(mén)鈴攝像頭拍攝的視頻人工識(shí)別車(chē)輛和人員,據(jù)說(shuō)這是為了更好地訓(xùn)練該軟件自己獨(dú)立完成這項(xiàng)工作。
密歇根大學(xué)教授Florian Schaub在研究了與智能揚(yáng)聲器相關(guān)的隱私問(wèn)題后說(shuō):“你沒(méi)有必要總是想著有另一個(gè)人正在監(jiān)聽(tīng)你在家里對(duì)你的智能揚(yáng)聲器說(shuō)了些什么。我認(rèn)為,我們已經(jīng)習(xí)慣于這樣一種假設(shè),這些機(jī)器只是在進(jìn)行神奇的機(jī)器學(xué)習(xí)。但事實(shí)是,這項(xiàng)工作仍然需要包含人工處理的部分?!?/p>
他補(bǔ)充說(shuō)道:“這是否屬于隱私問(wèn)題,取決于亞馬遜和其他公司對(duì)他們?nèi)斯?biāo)注的信息類(lèi)型的謹(jǐn)慎程度,以及他們?nèi)绾蜗蛩顺尸F(xiàn)這些信息?!?/p>
自2014年Echo問(wèn)世后,亞馬遜的圓柱形智能音箱使得語(yǔ)音軟件在家庭中的使用迅速普及。不久后,Alphabet 公司推出了自己的版本“谷歌Home”,隨后是蘋(píng)果公司的HomePod。在中國(guó)也有許多公司銷(xiāo)售自己推出的類(lèi)似設(shè)備。根據(jù)研究機(jī)構(gòu)Canalys的數(shù)據(jù)顯示,去年全球消費(fèi)者購(gòu)買(mǎi)了7800萬(wàn)個(gè)智能揚(yáng)聲器。還有數(shù)百萬(wàn)人使用語(yǔ)音軟件與智能手機(jī)上的數(shù)字語(yǔ)音助手進(jìn)行互動(dòng)。
Alexa軟件被設(shè)計(jì)成聽(tīng)到一個(gè)喚醒詞后連續(xù)錄制音頻片段。喚醒詞默認(rèn)是“Alexa”。但人們可以將其更改為“Echo”或“computer”。當(dāng)檢測(cè)到喚醒詞時(shí),Echo頂部的光環(huán)會(huì)變?yōu)樗{(lán)色,表明該設(shè)備正在記錄并向亞馬遜服務(wù)器發(fā)送一條命令。
大多數(shù)現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)依賴(lài)于模仿人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò)。該軟件通過(guò)在大量數(shù)據(jù)中發(fā)現(xiàn)模式來(lái)學(xué)習(xí)。驅(qū)動(dòng)Echo和其他智能揚(yáng)聲器的算法使用概率模型來(lái)進(jìn)行有根據(jù)的猜測(cè)。如果有人問(wèn)Alexa附近是否有希臘餐館,算法就知道用戶(hù)可能在尋找一家餐館,而不是教堂或社區(qū)中心。
但有時(shí)Alexa也會(huì)弄錯(cuò),尤其是在處理新的俚語(yǔ)、地區(qū)口語(yǔ)或英語(yǔ)以外的語(yǔ)言時(shí)。在法語(yǔ)中,avec sa的“with him”或“with her”會(huì)讓軟件誤以為有人在使用Alexa wake這個(gè)詞。Hecho在西班牙語(yǔ)中表示事實(shí)或行為,有時(shí)被誤解為Echo。這就是為什么亞馬遜招募人工助手來(lái)填補(bǔ)算法所遺漏的空白。
蘋(píng)果的Siri也有人工助手,主要負(fù)責(zé)判斷數(shù)字語(yǔ)音助手對(duì)請(qǐng)求的解釋是否與用戶(hù)所說(shuō)的相符。根據(jù)蘋(píng)果的一份安全白皮書(shū)所示,他們審查的錄音缺乏可識(shí)別個(gè)人身份的信息,并與隨機(jī)標(biāo)識(shí)符綁定存儲(chǔ)6個(gè)月。在此之后,數(shù)據(jù)將被剔除隨機(jī)識(shí)別信息,但可能會(huì)被存儲(chǔ)更長(zhǎng)時(shí)間,以提高Siri的語(yǔ)音識(shí)別能力。
該公司說(shuō),在谷歌,一些評(píng)估人員可以從谷歌語(yǔ)音助手那里獲得一些音頻片段,用來(lái)幫助訓(xùn)練和改進(jìn)產(chǎn)品,但它與任何可識(shí)別個(gè)人身份的信息都沒(méi)有關(guān)聯(lián),而且音頻是失真的。
亞馬遜最近發(fā)布了一份招聘啟事,為布加勒斯特的Alexa數(shù)據(jù)服務(wù)公司招聘一名質(zhì)保經(jīng)理。招聘啟事里對(duì)工作內(nèi)容這樣描述:“每天Alexa都要聽(tīng)成千上萬(wàn)的人談?wù)摬煌脑?huà)題和不同的語(yǔ)言,她需要我們的幫助來(lái)理解這一切。這是你從未見(jiàn)過(guò)的大數(shù)據(jù)處理。我們每天都在創(chuàng)造、標(biāo)注、策劃和分析大量的語(yǔ)音材料?!?/p>
據(jù)一位知情人士透露,亞馬遜對(duì)語(yǔ)音數(shù)據(jù)的審核過(guò)程始于Alexa隨機(jī)抽取一小部分客戶(hù)語(yǔ)音記錄樣本,并將音頻文件發(fā)送給遙遠(yuǎn)的員工和承包商。
一些Alexa審核人員的任務(wù)是轉(zhuǎn)錄用戶(hù)的命令,將錄音與Alexa的自動(dòng)記錄進(jìn)行比較,或者對(duì)用戶(hù)與機(jī)器之間的交互進(jìn)行注釋。這個(gè)人問(wèn)了什么?Alexa是否提供了有效的響應(yīng)?
另一些人則記下偵聽(tīng)器所聽(tīng)到的一切,包括背景談話(huà),即使是在孩子們說(shuō)話(huà)的時(shí)候。有時(shí)偵聽(tīng)器會(huì)聽(tīng)到用戶(hù)討論諸如姓名或銀行信息等私人細(xì)節(jié)。在這種情況下,他們應(yīng)該勾選一個(gè)表示“關(guān)鍵數(shù)據(jù)”的對(duì)話(huà)框,然后他們進(jìn)入下一個(gè)音頻文件。
根據(jù)亞馬遜網(wǎng)站上的說(shuō)法,除非Echo檢測(cè)到喚醒詞或按下按鈕激活,否則不會(huì)存儲(chǔ)音頻。但有時(shí)Alexa似乎在沒(méi)有任何提示的情況下就開(kāi)始錄音了,音頻文件以刺耳的電視聲音或難以理解的噪音開(kāi)始。無(wú)論激活是否錯(cuò)誤,審核人員都需要對(duì)其進(jìn)行轉(zhuǎn)錄。其中一名知情人士說(shuō),當(dāng)Alexa沒(méi)有收到喚醒命令或意外觸發(fā)時(shí),審核人員每人每天都會(huì)錄制多達(dá)100段錄音。
據(jù)兩位評(píng)論人士說(shuō),在世界各地的家庭中,Echo的主人經(jīng)常猜測(cè)誰(shuí)在偷聽(tīng)。他們會(huì)問(wèn)Alexa :“你是為國(guó)家安全局工作嗎?Alexa,有人在聽(tīng)我們說(shuō)話(huà)嗎?”
