開玩笑的時候,小雪說她的男友是AI產(chǎn)業(yè)中工資最低的那個,其次就是她自己。
剛從濟南德州信息工程學(xué)校計算機專業(yè)畢業(yè),小雪和男友正在接受手寫體錄入培訓(xùn),當她能認識這些手寫字母后,就輪到她把這些知識教給計算機——把一張張快遞單或家譜上的手寫體上的字母標注出來,告訴機器i可以有多種寫法。
這樣的工作并不簡單。手寫的i可能是頂上一點加上一豎,也可能是朝后彎的小勾,更潦草一點就和數(shù)字9一樣……小雪的筆記本上密密麻麻地擠滿了這些像字更像圖的墨跡。
小雪做的,是一種介于手寫錄入和圖像標記之間的工作。同服務(wù)于智能駕駛的街景標記、服務(wù)于智能醫(yī)療的人體標記、服務(wù)于語音交互的聲音標記一樣,他們共同的行業(yè)學(xué)名叫做“人工智能數(shù)據(jù)標注”——這是整個AI產(chǎn)業(yè)的基礎(chǔ),是機器感知現(xiàn)實世界原點。
和小孩一樣,機器要認識“蘋果”,就需要不斷有人教給它哪些東西是蘋果:渾圓的、帶把的、有的像桃心有的像屁股,有的通紅有的油綠。和小孩不同的是,機器需要在不同場景、不同角度下反復(fù)學(xué)習(xí),這個漫長的教授過程就是小雪在AI產(chǎn)業(yè)中的位置,標注大量用于訓(xùn)練機器學(xué)習(xí)模型的數(shù)據(jù),讓機器越來越像“人”。
無差別的人力,天壤之別準確度
如果小雪標注犯錯,最直接的后果是機器也會跟著犯錯。她必須保證“喂”給機器的標注數(shù)據(jù)達到90%以上精度(即是指標注的正確率),否則這些數(shù)據(jù)對于機器學(xué)習(xí)將毫無意義。北京一家數(shù)據(jù)標注工廠BasicFinder的CEO杜霖說:95%以上的準確率是理想情況;但從95%提到97%所需花的成本就不再是一兩倍了,可能是10倍或100倍。
98%精度是小雪遇到過的最高需求,這意味著如果100個點里頭有兩個點不準的話,就會被打回重做。她“提心吊膽”地對每個標注點反復(fù)確認才敢提交。但15骨骼點標注又極耗耐心,要在人全身包括頭頂、脖子、胸口、膝蓋等骨骼處打上15個點,將這15個點連起來就出現(xiàn)了一個形象的火柴人。在Kinect體感游戲中,機器就是靠關(guān)鍵骨骼點的位移來識別人體是否運動。
令小雪最郁悶的,是一張軍姿站圖。只要露出了頭、脖子、胸口,小雪就要從他的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重復(fù)拖動近40個框后,她要再放大這些帶有藍色陰影矩形框,從頭到四肢標注完每個人的骨骼點。最后,將近600個點密密麻麻地落在了這張圖里。
在這個她形容為“經(jīng)歷絕望”的過程中,她嘗試用眼藥水來緩解疲勞,但滴過后會不停流眼淚,直到她換了種方式,靠不停揉眼睛來放松。杜霖說:有些任務(wù)圖上密密麻麻的點,看兩個小時以上眼睛絕對會花掉了,但他會要求員工不斷克服人本身的一些“消極因素”,才能避免標錯數(shù)據(jù)成為“漏網(wǎng)之魚”。
聯(lián)合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉認為,到2030年,人工智能將向世界經(jīng)濟貢獻16萬億美元。從2016年人工智能逐漸走熱以來,任何行業(yè)都想搭上這個熱潮,投資人的評價是“每個商業(yè)計劃書上都要加上人工智能”。進入深度學(xué)習(xí)“死胡同”的人工智能需要標注的領(lǐng)域也帶來越來越多:機場安檢時新增的人臉識別、能識別選取商品的無人便利店、能安全行駛的無人駕駛等。
新興市場帶來了大量勞動力的涌入?!霸瓉砀商詫毸蔚模F(xiàn)在也能搖身一變做AI數(shù)據(jù)標注?!倍帕卣f,“在提供無差別人力勞動這件事上,大家是沒有門檻的?!?/p>
在河北衡水,由于當?shù)卣槲廴緡乐貙?dǎo)致化工制品停產(chǎn),26歲的小蘇就帶著原先30多人的銷售團隊轉(zhuǎn)行數(shù)據(jù)標注,隊員小的到20出頭,老至年近不惑。雖然他早就知道河北做數(shù)據(jù)標注的團隊已經(jīng)非常多,并且有的團隊已經(jīng)垮掉,但人工智能的火熱和數(shù)據(jù)標注的低門檻還是讓他決定一搏。
高中學(xué)歷是小蘇在招人時的最高期望,“高中生花一天做的工作,初中生可能需要花五天,差別很大?!毙袠I(yè)中,小蘇的招聘標準已經(jīng)算是較高水平,那些投身數(shù)據(jù)標注的兼職者學(xué)歷更加良莠不齊。在某些眾包平臺上,有的標注者只有小學(xué)文憑,在東北還有一部分有聽力障礙的殘疾人標注團隊,而北京的全職工廠中的最高學(xué)歷是大專或者中專。
欣博友數(shù)據(jù)標注公司市場部經(jīng)理周京平認為,一個老農(nóng)民在標注方言語音時可能會比不使用這種語言的大學(xué)生還好。同所有的人力密集型產(chǎn)業(yè)一樣,人人都能在此覓得一份營生。
人工智能專業(yè)方向的碩士生毛毛認為,能不能達到理想標注精度和學(xué)歷沒什么關(guān)系,而且操作非常簡單,只要教一下,誰都能做。她也曾做過兼職數(shù)據(jù)標注,在所給的圖片中她需要辨別出不同角度的花菜、菠菜等。一星期后,她標注了一萬張圖,沒有一張返工,每張報酬一毛錢。但她“打死也不會再做這個工作了”,因為“實在太重復(fù)”。
看似簡單的操作,要達到90%的精度對于大多數(shù)標注者來講卻是天方夜譚。小蘇所接觸到的兼職標注團隊最高精度只能達到70%,即便是在全職和全把控的情況下,他們第一次項目只達到了50%的精度,基本上承接的每個項目他們都需要重復(fù)三次以上才能達到90%的精度。
如果用于訓(xùn)練模型的數(shù)據(jù)精度低于90%,就像小孩兒拿到的一年級數(shù)學(xué)課本里頭寫的是一加一等于三。一開始就教錯,機器學(xué)習(xí)和人工智能就只剩下指鹿為馬。
數(shù)字富士康
2014年冬天,山東蓬萊積起了厚厚的雪。小雪每天都要不情愿地鉆出被窩,趟著大雪走到一家汽車工廠去插線。在固定工位站好后,她根據(jù)形狀將面前充滿不同插口的集成器及一堆接口各異的汽車線路一一匹配好,完成后迅速將其交給下一個人,再重復(fù)剛才的動作,直到下班。小雪知道,自己站一整天的工作只是整個工廠里頭很小的一部分。
相比那年冬天,她更喜歡現(xiàn)在的工作,數(shù)據(jù)標注工廠里,她有接近兩百個同事,大家能坐在屬于自己的工位上干活。在給用于智能駕駛采集的圖片做標注時,小雪需要選取一個可以畫出2D框的標注工具(即是可以根據(jù)不同物體拖動出不同形狀的畫框),把圖片中所有的機動車、非機動車、行人、紅綠燈等標注出來。
同在汽車工廠流水線上的工作相比,眼前的鍵盤鼠標顯示器替代了嗡嗡作響的流水線,從早上8點到晚上5點,小雪除了拽動鼠標外什么都不用想,重復(fù)一個動作就行,變化的只有眼前不同的圖片——但這對小雪來說,工作中的新鮮感已經(jīng)足夠。
有的人說數(shù)據(jù)標注工廠就像富士康一樣。北京另一家數(shù)據(jù)標注公司瑪達科技公司CEO任樹亮則直言不諱,數(shù)據(jù)這一塊往往給人印象就是一個勞動密集型產(chǎn)業(yè)。某自動駕駛創(chuàng)業(yè)公司數(shù)據(jù)標注負責(zé)人經(jīng)常私底下開玩笑說,這就是個“血汗工廠”。
目前的數(shù)據(jù)標注工廠,多集中在河北、河南、山東、山西等地區(qū),這同以富士康為代表的傳統(tǒng)人力密集企業(yè)的選址偏好重合度極高——以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。杜霖介紹說,由于高昂的成本絕不能讓北京去做最終的生產(chǎn),而是做所有新任務(wù)來時的磨合測試以及最終的質(zhì)量控制。生產(chǎn)任務(wù)最終還是落到周邊城市。
只有招募像毛毛一樣的大學(xué)生做兼職標注時,眾包工廠能開出一張圖1毛錢“高價”。任樹亮對這樣的定價有些吃驚,“我們還有按厘算的呢?!痹谝欢巡煌瑘D片中識別某人是否是同一個人,這樣的工作只能按厘算,不過也有從幾十塊錢到上百塊錢報價的復(fù)雜標注圖。杜霖說,圖片的差異比較大,以工時來計算可能更準確,現(xiàn)在甲方公司至少應(yīng)該給到30塊錢每小時才能保質(zhì)保量完成。
小雪挺滿意現(xiàn)在的待遇,“之前的工作太累又掙不到錢”?,F(xiàn)在公司包吃包住,提供四人間寢室,一個月到手的工資有4000-5000塊,還可以和男朋友一同上下班。最近一段時間,工期趕得很急,小雪已經(jīng)連續(xù)兩個周末到公司加班,從早到晚地盯著顯示器讓她倍感疲憊,但她不想停下,基礎(chǔ)加計件的工資構(gòu)成總是多勞多得。
和傳統(tǒng)生產(chǎn)流水線不同的是,在杜霖的工廠里,工作流程被設(shè)置為可實時切換:每期作業(yè)都不同,每期作業(yè)里頭的每個任務(wù)也不相同。在一個小時的工作間隔里,小雪會碰到兩個相同的標注任務(wù),當兩次標注結(jié)果差別較大時,就證明她已經(jīng)疲勞了,這是,系統(tǒng)就會切換一個完全不同的任務(wù)交給小學(xué)操作,以保持員工的“清醒”和“新鮮”,最終達成杜霖宣稱的準確率。
算上合作的周邊工廠,杜霖的公司已經(jīng)有2000多人,他們正在同時進行著20多個不同項目的標注。在這樣一個人力密集型行業(yè)里存活下來,并且保障交付的數(shù)據(jù)達到90%的精度,他堅信,管理才是關(guān)鍵。
管理,管理,以及管理
林霞是小雪的直接管理者,她是老板杜霖最信任的人,已經(jīng)有18年類似的工作經(jīng)驗。當接到一個新項目時,她要確定整個項目流程。前段時間,林霞拿到了一個智能駕駛的標注項目,里頭既有夜間拍攝的圖片也有白天的圖片,為了保證標注質(zhì)量林霞就決定讓能力強一點的員工做夜晚圖片的標注,而能力弱一些的就標注白天拍攝的圖片。這是第一步,分析客戶給到的圖像,如果是涉及到對人的標注,要分析給到的圖片包里單人和多人的圖片各占多少,明確需要標注的工作量大概多大。
分析完后,她會將具體的標注任務(wù)分配給手下的員工??赡芤恍┤松瞄L標注道路場景,而另一部分人更擅長標注骨骼點,稍有難度的標注她會交給表現(xiàn)出色的員工,對他們進行重點培養(yǎng)。辦公桌右側(cè)的日歷上每一天空白處都畫著提示,如果標注進度比林霞想像中慢,她就必須留意其中的什么原因。標注完成后,最困難的地方就過去了,接下來就是質(zhì)檢、抽檢及合成數(shù)據(jù)交付給甲方公司了。
“統(tǒng)籌安排”是整個生產(chǎn)過程的核心,所有工作的底線是要按照客戶的要求按時完工。如果趕工期,林霞會要求手下員工加班,并且緊急調(diào)配人員。會出現(xiàn)一些讓林霞頭疼的員工,平時精度可能只能做到50%,做出來的全是“廢品”。面對這種情況,林霞會堅持讓他換崗,“不行就不能在我這崗位呆著。因為我的作業(yè)他干不了,既浪費我時間又浪費他時間,他還掙不到錢。”
林霞的這些經(jīng)驗為小雪給別人培訓(xùn)打下了基礎(chǔ)。作為公司里比較優(yōu)秀的員工,入職一年后小雪就作為培訓(xùn)老師之一去了河北徐水一居民小區(qū)里,這是她公司的一家合作工廠。這棟紅色外墻的居民樓一層是數(shù)據(jù)標注工廠,樓上是老年人活動中心。進了大鐵門后,有四個教室般大的工廠里面放著新的臺式電腦。除了部分來兼職的學(xué)生們外,大部分都是些已婚中年人,有的騎自行車十分鐘左右就可以到了,而有的就住在小區(qū)里。
第一次布置任務(wù)時,小雪不想給“學(xué)生們”的心理壓力太大,她只布置了十張標注的作業(yè)。但學(xué)生們對于標注規(guī)則總有不同的理解,同樣的東西她單獨給一個人講過三四遍。給他們練手的骨骼點標注圖片里頭,需要先標注骨骼點再連線,但有身體特別扭曲的圖像,而規(guī)則里頭明確要求左肩和左胯在同一水平面上。那些拿不定主意的學(xué)生,會像小學(xué)生面對著自己的老師一樣,反復(fù)向小雪求助和確認。
不清楚標注規(guī)則既影響標注速度又影響標注質(zhì)量。同樣的一條眉毛,客戶給的標準是將其劃分成平眉和挑眉,但“平”和“挑”的定義,幾乎人人不同。一輪標注下來,一塌糊涂。為了熟悉各個公司需求文檔中不同的具體規(guī)則,每當遇到類似的新項目,林霞都會上手試標注。
兩個星期后,這些偶爾會將左手標簽貼在右手上的學(xué)生已經(jīng)掌握了具體的標注規(guī)則,可以上崗了。小雪很享受被叫老師的時候,但還是更喜歡做數(shù)據(jù)標注,因為標注不費心,檢查要承受被用戶打回來返工的壓力,壓力更大。
對甲方公司來講,誰來標注、如何管理這些都不是他們需要擔(dān)心的問題,成本和按時保質(zhì)交付才是核心。用智能程序覆蓋城市低速場景的酷哇機器人公司目前主要跟杭州一些高校合作,學(xué)生是標注主體,采用這樣的方式可以節(jié)省1/3的成本。曾對接過多次數(shù)據(jù)標注的工程師說,只要跟體量比較大的數(shù)據(jù)標注公司合作,一般精度和時間都可以有保障。
AI產(chǎn)業(yè)的源頭和最不會被替代的人
每次回老家,當家人問起小雪的工作,她總是先說自己是“數(shù)據(jù)標注師”,再往下解釋,說是做和計算機相關(guān)一些人臉、骨骼點標注工作。但沒人聽得懂,小雪在說什么,家里人就會在此停止追問,并暗暗覺得這是一個響亮的高科技職位。小雪從來沒有想過自己的工作對于人工智能來說算什么,“只要掙錢就有意義”。
“負責(zé)靜態(tài)物體檢測/場景識別/OCR文字識別,負責(zé)人工智能與自動作業(yè)探索”這是百度招聘圖像識別與人工智能算法工程師的工作職責(zé)描述,而“扎實的數(shù)學(xué)基礎(chǔ),掌握C/C++和Python語言,掌握OpenCV,掌握機器學(xué)習(xí)基本算法……”是對應(yīng)聘者的要求。面對這些“同行業(yè)的同事”,中專文憑的小雪想不明白自己和他們的聯(lián)系究竟為何。
但“小雪們”標注的上萬張圖片才是無人駕駛能夠紅燈停、綠燈行的基礎(chǔ)。沒有數(shù)據(jù)的清晰標注,深度學(xué)習(xí)的發(fā)展就是巧婦無米。另一家眾包數(shù)據(jù)標注公司CEO任樹亮認為,人工智能就是盲人摸象,有很多不同的部位,數(shù)據(jù)標注也是人工智能產(chǎn)業(yè)里面很重要的環(huán)節(jié),不過容易被認為很low。
的確,同人工智能的響亮名號相比,數(shù)據(jù)標注幾乎沒有任何技術(shù)門檻。小雪初三時才第一次學(xué)打字,上中專后才“正式”接觸電腦,而現(xiàn)在她已經(jīng)被老板表揚為最出色的幾個員工之一。踏實干好現(xiàn)在的工作是小雪從入職以來唯一的想法,這是姥姥的囑咐,讓她給弟弟妹妹做好榜樣。其他人的情緒并不都像小雪一樣穩(wěn)定。有人領(lǐng)到分配的骨骼標注圖片后,因為圖像里頭人太多就直接不做任務(wù),但資源包被領(lǐng)取后就無法再放回資源池,如果不做,這包圖片就不會有其他任何人能標注。而更不靠譜的人還會動搖其他員工。
2015年的初秋,吃飽了午飯的小雪坐上來數(shù)據(jù)標注工廠派來接他們?nèi)肼毜拇蟀蛙?,同行的還有15名將一起畢業(yè)的同學(xué),開往北京的路上,他們嘶吼的歌聲蓋過了車內(nèi)的音響,整整一路,那份一無所知的興奮感延續(xù)到了今天。每當聽到人們談?wù)撈鹑斯ぶ悄軙娲肆Φ臅r候,小雪都覺得不知所云。
“即時是被替代,數(shù)據(jù)標注師也將是最后一批被替代的人?!倍帕匕延^點灌輸給了小雪和她的同事們,這讓他們感受到了莫大的信心和驕傲。只有當真正把所有知識都教給老虎,貓才會被吃掉,在此之前老虎的獵物都只會是其他動物。作為人工智能的“老師”,他們還要不斷教會人工智能新本事。
某創(chuàng)業(yè)公司對接數(shù)據(jù)標注的負責(zé)人認為,商業(yè)競爭才是決定這部分人不會取代的關(guān)鍵因素。每家公司都有自己的數(shù)據(jù)標注需求,并且他們暫時不會公開自己的模型,就像在互聯(lián)網(wǎng)之初大家都不會開源自己的代碼一樣??赡艿侥硞€節(jié)點大家都公開自己的數(shù)據(jù)、模型后這部分人才會面對失業(yè)的擔(dān)憂。
就算到了人工真正要被取代的那天,杜霖堅信她和他的工廠也不會慌張。這位“廠長”正盤算著把他擁有的人力資源復(fù)用到其他領(lǐng)域,比如承接一部分內(nèi)容審核、信息核查的工作,“審核滴滴司機的駕照是否真實、微信是否是真的實名制、頭條新聞是否是涉黃、涉恐”。
對于將來的發(fā)展,小雪還沒想太多。她現(xiàn)在正在學(xué)習(xí)29點的人臉標注,每只眉毛上找到三個需要標注的點,眼睛上下眼皮各兩個點、眼珠一個點外加兩個眼角的兩個點,共五個點,嘴巴有六個點……聽完這些規(guī)則后,小雪驚喜地笑了,“一個人臉就出來了,老形象了,像‘彌勒佛’一樣”。