《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > Alexa變身竊聽器:亞馬遜被爆雇傭數(shù)千員工監(jiān)聽用戶對話

Alexa變身竊聽器:亞馬遜被爆雇傭數(shù)千員工監(jiān)聽用戶對話

2019-04-16

目前,數(shù)千萬的人們經(jīng)常使用智能揚聲器和語音軟件來玩游戲、聽音樂或搜尋一些瑣事。而這其中有數(shù)百萬人卻越來越不愿意將這些設(shè)備和它們強大的麥克風(fēng)買回家,因為他們擔(dān)心有人在偷聽。

1555118622380032748.png

有時候,的確有人在偷聽。

亞馬遜公司在全球雇傭了數(shù)千名員工,以幫助改進為Echo音箱供電的Alexa數(shù)字語音助手。研究小組會監(jiān)聽Echo在其主人家中或辦公室里收集到的語音記錄。這些錄音會被轉(zhuǎn)錄、注釋,然后反饋到軟件中,此舉的目的是為了消除Alexa對人類語言理解的空白,幫助它更好地響應(yīng)指令。

七名曾參與過Alexa語音審查程序的人員描述這個程序時,強調(diào)了在訓(xùn)練軟件算法時經(jīng)常被忽視的人類角色。在營銷材料中,亞馬遜稱Alexa“生活在云端,并且一直在變得更聰明?!?但是,就像許多為了實現(xiàn)從經(jīng)驗中學(xué)習(xí)的目的而構(gòu)建的軟件工具一樣,人類也在對其進行一些教學(xué)。

據(jù)知情人士透露,這個團隊由一群承包商和亞馬遜全職員工組成,他們在波士頓、哥斯達黎加、印度和羅馬尼亞等地的前哨站工作。這些知情人士簽署了保密協(xié)議,該協(xié)議禁止他們公開談?wù)撨@個項目。

亞馬遜布加勒斯特辦公室的兩名員工稱,他們每天工作9個小時,每人每次當值時要分析多達1000個音頻片段。布加勒斯特辦公室位于羅馬尼亞首都頗具發(fā)展前景的Pipera區(qū),占據(jù)了環(huán)球價值大廈(Globalworth building)最高的三層。辦公室里現(xiàn)代化的設(shè)備在搖搖欲墜的基礎(chǔ)設(shè)施中十分顯眼,卻沒有任何外部標志顯示亞馬遜的存在。

這項工作里的大部分內(nèi)容都很平常。波士頓的一名工作人員說,他為“泰勒·斯威夫特”等特定話語挖掘了積累的語音數(shù)據(jù),并對其進行了注釋,以表明搜索者指的是音樂藝術(shù)家。

偶爾,這些工作人員會聽到Echo的主人可能比較隱私的內(nèi)容,比如,一個女人在淋浴時唱得很糟糕,或者一個孩子大聲呼救。當團隊在解析一個混亂的單詞時需要幫助或遇到一段有趣的錄音時,他們會使用內(nèi)部聊天室來共享文件。

有時他們會聽到令他們不安的錄音,或者可能是與犯罪有關(guān)的錄音。其中兩名工人說,他們聽到過他們認為是性侵的錄音。當類似的事情發(fā)生時,他們可能會在內(nèi)部聊天室里分享經(jīng)驗,以緩解壓力。亞馬遜表示,當員工聽到令人不快的事情時,他們有相應(yīng)的程序可以遵循,但兩名羅馬尼亞員工表示,在這樣的情況發(fā)生后他們想尋求指導(dǎo)時,卻被告知這不是亞馬遜的工作。

一位亞馬遜發(fā)言人在一份電子郵件聲明中表示:“我們會嚴肅對待客戶個人信息的安全和隱私。為了改善用戶體驗,我們只標注了一小部分Alexa語音錄音樣本。例如,這些信息可以幫助我們訓(xùn)練我們的語音識別和自然語言理解系統(tǒng),從而使得Alexa可以更好地理解您的請求,并確保服務(wù)對每個人都有效?!?/p>

聲明中還說,“我們有嚴格的技術(shù)和操作保障措施,對濫用我們系統(tǒng)的行為采取零容忍政策。員工不能直接訪問作為此工作流一部分的個人或帳戶標識信息。所有信息都被高度保密,為了保護這些信息,我們使用多因素身份驗證手段來限制訪問、加密和審核我們的控制程序?!?/p>

亞馬遜在其營銷和隱私政策材料中沒有明確表示,一些人正在監(jiān)聽Alexa收集的對話錄音。該公司在一份常見問題列表中表示:“我們利用您對Alexa的要求來訓(xùn)練我們的語音識別和自然語言理解系統(tǒng)?!?/p>

在Alexa的隱私設(shè)置中,該公司允許用戶在開發(fā)新功能時禁用語音記錄。根據(jù)彭博社查看的截圖顯示,發(fā)送給Alexa審計員的錄音不提供用戶的全名和地址,但是卻與賬號、用戶名和設(shè)備序列號相關(guān)。

外媒在今年早些時候曾報道稱,亞馬遜旗下Ring公司的員工通過在公司門鈴攝像頭拍攝的視頻人工識別車輛和人員,據(jù)說這是為了更好地訓(xùn)練該軟件自己獨立完成這項工作。

密歇根大學(xué)教授Florian Schaub在研究了與智能揚聲器相關(guān)的隱私問題后說:“你沒有必要總是想著有另一個人正在監(jiān)聽你在家里對你的智能揚聲器說了些什么。我認為,我們已經(jīng)習(xí)慣于這樣一種假設(shè),這些機器只是在進行神奇的機器學(xué)習(xí)。但事實是,這項工作仍然需要包含人工處理的部分?!?/p>

他補充說道:“這是否屬于隱私問題,取決于亞馬遜和其他公司對他們?nèi)斯俗⒌男畔㈩愋偷闹斏鞒潭?,以及他們?nèi)绾蜗蛩顺尸F(xiàn)這些信息?!?/p>

自2014年Echo問世后,亞馬遜的圓柱形智能音箱使得語音軟件在家庭中的使用迅速普及。不久后,Alphabet 公司推出了自己的版本“谷歌Home”,隨后是蘋果公司的HomePod。在中國也有許多公司銷售自己推出的類似設(shè)備。根據(jù)研究機構(gòu)Canalys的數(shù)據(jù)顯示,去年全球消費者購買了7800萬個智能揚聲器。還有數(shù)百萬人使用語音軟件與智能手機上的數(shù)字語音助手進行互動。

Alexa軟件被設(shè)計成聽到一個喚醒詞后連續(xù)錄制音頻片段。喚醒詞默認是“Alexa”。但人們可以將其更改為“Echo”或“computer”。當檢測到喚醒詞時,Echo頂部的光環(huán)會變?yōu)樗{色,表明該設(shè)備正在記錄并向亞馬遜服務(wù)器發(fā)送一條命令。

大多數(shù)現(xiàn)代語音識別系統(tǒng)依賴于模仿人類大腦的神經(jīng)網(wǎng)絡(luò)。該軟件通過在大量數(shù)據(jù)中發(fā)現(xiàn)模式來學(xué)習(xí)。驅(qū)動Echo和其他智能揚聲器的算法使用概率模型來進行有根據(jù)的猜測。如果有人問Alexa附近是否有希臘餐館,算法就知道用戶可能在尋找一家餐館,而不是教堂或社區(qū)中心。

但有時Alexa也會弄錯,尤其是在處理新的俚語、地區(qū)口語或英語以外的語言時。在法語中,avec sa的“with him”或“with her”會讓軟件誤以為有人在使用Alexa wake這個詞。Hecho在西班牙語中表示事實或行為,有時被誤解為Echo。這就是為什么亞馬遜招募人工助手來填補算法所遺漏的空白。

蘋果的Siri也有人工助手,主要負責(zé)判斷數(shù)字語音助手對請求的解釋是否與用戶所說的相符。根據(jù)蘋果的一份安全白皮書所示,他們審查的錄音缺乏可識別個人身份的信息,并與隨機標識符綁定存儲6個月。在此之后,數(shù)據(jù)將被剔除隨機識別信息,但可能會被存儲更長時間,以提高Siri的語音識別能力。

該公司說,在谷歌,一些評估人員可以從谷歌語音助手那里獲得一些音頻片段,用來幫助訓(xùn)練和改進產(chǎn)品,但它與任何可識別個人身份的信息都沒有關(guān)聯(lián),而且音頻是失真的。

亞馬遜最近發(fā)布了一份招聘啟事,為布加勒斯特的Alexa數(shù)據(jù)服務(wù)公司招聘一名質(zhì)保經(jīng)理。招聘啟事里對工作內(nèi)容這樣描述:“每天Alexa都要聽成千上萬的人談?wù)摬煌脑掝}和不同的語言,她需要我們的幫助來理解這一切。這是你從未見過的大數(shù)據(jù)處理。我們每天都在創(chuàng)造、標注、策劃和分析大量的語音材料。”

據(jù)一位知情人士透露,亞馬遜對語音數(shù)據(jù)的審核過程始于Alexa隨機抽取一小部分客戶語音記錄樣本,并將音頻文件發(fā)送給遙遠的員工和承包商。

一些Alexa審核人員的任務(wù)是轉(zhuǎn)錄用戶的命令,將錄音與Alexa的自動記錄進行比較,或者對用戶與機器之間的交互進行注釋。這個人問了什么?Alexa是否提供了有效的響應(yīng)?

另一些人則記下偵聽器所聽到的一切,包括背景談話,即使是在孩子們說話的時候。有時偵聽器會聽到用戶討論諸如姓名或銀行信息等私人細節(jié)。在這種情況下,他們應(yīng)該勾選一個表示“關(guān)鍵數(shù)據(jù)”的對話框,然后他們進入下一個音頻文件。

根據(jù)亞馬遜網(wǎng)站上的說法,除非Echo檢測到喚醒詞或按下按鈕激活,否則不會存儲音頻。但有時Alexa似乎在沒有任何提示的情況下就開始錄音了,音頻文件以刺耳的電視聲音或難以理解的噪音開始。無論激活是否錯誤,審核人員都需要對其進行轉(zhuǎn)錄。其中一名知情人士說,當Alexa沒有收到喚醒命令或意外觸發(fā)時,審核人員每人每天都會錄制多達100段錄音。

據(jù)兩位評論人士說,在世界各地的家庭中,Echo的主人經(jīng)常猜測誰在偷聽。他們會問Alexa :“你是為國家安全局工作嗎?Alexa,有人在聽我們說話嗎?”


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。