《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 數(shù)據(jù)標注:給人工智能“當(dāng)老師”

數(shù)據(jù)標注:給人工智能“當(dāng)老師”

2022-01-16
來源:人民微看點

“每當(dāng)有人問起我的職業(yè),我回答是數(shù)據(jù)標注師的時候,對方的臉上總是寫滿了問號。”李宇龍說。

李宇龍在百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地(簡稱“百度基地”)從事數(shù)據(jù)標注工作已經(jīng)5年了。他說,自己和許多同事目前最大的心愿就是,希望有一天大家提起數(shù)據(jù)標注師就像提起教師、醫(yī)生一樣熟悉,期待有越來越多的人了解這個行業(yè)。

省工信廳不久前印發(fā)的《山西省“十四五”大數(shù)據(jù)發(fā)展應(yīng)用規(guī)劃》中明確提出:我省將加快發(fā)展數(shù)據(jù)資源共享、人工智能算法模型研發(fā)、訓(xùn)練測試驗證、產(chǎn)品服務(wù)應(yīng)用等數(shù)據(jù)標注服務(wù)鏈條,推動“機器+人工”標注、機器智能標注等能力升級,打造完整的數(shù)據(jù)標注服務(wù)體系。李宇龍的心愿,有望在短期內(nèi)實現(xiàn)。

數(shù)據(jù)標注,不僅僅是“標注”

什么是數(shù)據(jù)標注?簡單來說,就是通過對數(shù)據(jù)貼標簽、做記號、標顏色或劃重點的方式,標注出其中目標數(shù)據(jù)的不同點、相似點或類別,以此達到讓機器學(xué)習(xí)的功能?!皵?shù)據(jù)標注是傳統(tǒng)制造升級為智能制造、信息計算升級為人工智能的必要環(huán)節(jié),其質(zhì)量直接決定著機器智能化的程度,是它們讓機器成為‘天才’?!笔」ば艔d大數(shù)據(jù)辦相關(guān)人士的解釋很專業(yè)。

鮮為人知的是,人工智能是需要被人為教導(dǎo)訓(xùn)練而成。人工智能所需要的教導(dǎo),背后是經(jīng)過大量的學(xué)習(xí)訓(xùn)練而成。機器并不能理解原始數(shù)據(jù),這些原始數(shù)據(jù)需要人為的“標簽化”,通過標注賦予這些數(shù)據(jù)能夠被機器所識別的特性,才可以被用于訓(xùn)練。正是依據(jù)這些大量而有效的數(shù)據(jù)總結(jié)規(guī)律,機器和人工智能才能最終形成自己的工作模式,變得越來越“聰明”。

正因如此,人工智能行業(yè)有句話:有多少智能,背后就有多少人工。2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。他們的工作是教會AI認識數(shù)據(jù),有了足夠多、足夠好的數(shù)據(jù),AI才能學(xué)會像人一樣去感知、思考和決策,更好地為人類服務(wù)。

李宇龍雖然從未見過自動駕駛汽車,但他最近正在做的工作卻與自動駕駛技術(shù)的AI算法息息相關(guān)?!澳憧?,把汽車框起來,都打成白色的點,就代表這是一個障礙物?!彪S著李宇龍鼠標的快速滑動,屏幕上的點云圖不斷翻轉(zhuǎn),一個個針尖大的數(shù)據(jù)點被標注在圖中不同物體上——藍色是路面、綠色是綠植、紅色是路沿、白色是障礙物。事實上,自動駕駛汽車眼中的世界就是一幅幅不斷變幻的點云圖。數(shù)據(jù)標注師要做的就是對照攝像頭拍攝的照片,賦予這些點云圖以準確的含義。

記者采訪中了解到,現(xiàn)在數(shù)據(jù)標注的內(nèi)容已經(jīng)從圖片拓展到語音,數(shù)據(jù)集中除了自動駕駛,還有醫(yī)療CT、人臉等,語音數(shù)據(jù)除了有普通話、各地方言外還有外語,這些數(shù)據(jù)集涵蓋的范圍越來越廣,使得行業(yè)對數(shù)據(jù)標注師的要求也越來越高。

市場需求量將呈井噴式增長

眾所周知,數(shù)據(jù)服務(wù)領(lǐng)域與人工智能的發(fā)展息息相關(guān)。通過每天數(shù)千次的重復(fù)動作,數(shù)據(jù)標注這項工作便和無人駕駛、人臉支付、智能家居、智慧醫(yī)療等前沿科技產(chǎn)生了緊密的聯(lián)系。

記者了解到,目前,數(shù)據(jù)標注的技術(shù)門檻并不高,只要能熟練操作電腦,經(jīng)過一定的培訓(xùn)就能上崗,招工人群較為廣泛。以百度基地為例,現(xiàn)在這里有2300多名數(shù)據(jù)標注師,今后5年預(yù)計將為5萬名數(shù)據(jù)標注師提供就業(yè)崗位。

“這是個高速發(fā)展的行業(yè),5年培養(yǎng)5萬人并不算多,我們的線上眾包注冊用戶將近2000萬人,目前每個月在線上為我們提供服務(wù)的將近5萬人。如果按照行業(yè)增長速度來看的話,培養(yǎng)5萬人還不一定夠?!卑俣然刎撠?zé)人介紹。

對于如何保障數(shù)據(jù)安全,這位負責(zé)人表示:“這也是百度要專門建設(shè)這個基地的原因。在基地,每個房間都有24小時視頻監(jiān)控,上崗之前進行人臉打卡、數(shù)據(jù)加密,作業(yè)期間若涉及數(shù)據(jù)敏感項目,會要求數(shù)據(jù)標注

師們將手機放在固定的地方,而線上的數(shù)據(jù)標注師則是處理一些敏感性不高的數(shù)據(jù)?!?/p>

記者了解到,目前山西轉(zhuǎn)型綜合改革示范區(qū)已建成全國知名的單體數(shù)據(jù)標注基地,入駐企業(yè)35家,標注人員2000余人,產(chǎn)值規(guī)模和從業(yè)人員全國領(lǐng)先。

據(jù)艾瑞統(tǒng)計預(yù)測,2020年我國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為37億元,到2025年相應(yīng)規(guī)??蛇_107億元,整體增速呈現(xiàn)穩(wěn)步提升的趨勢,圖像、語音類內(nèi)容也繼續(xù)在向新興場景開拓,數(shù)據(jù)標注需求量將呈井噴式增長。

優(yōu)勢+政策助推行業(yè)“起飛”

站在互聯(lián)網(wǎng)風(fēng)口之上,我省已緊緊把握住了“大數(shù)據(jù)”“云平臺”等發(fā)展機遇。數(shù)據(jù)標注產(chǎn)業(yè)則是我省進一步利用已有制造業(yè)基礎(chǔ)和大數(shù)據(jù)資源,發(fā)展智能制造和人工智能應(yīng)用的關(guān)鍵一步,是推動我省經(jīng)濟高質(zhì)量轉(zhuǎn)型發(fā)展的新機遇。事實上,我省近年來持續(xù)聚焦、主動作為,正在穩(wěn)步推進我省數(shù)據(jù)標注產(chǎn)業(yè)建設(shè)發(fā)展。

一個事實是,我省發(fā)展數(shù)據(jù)標注產(chǎn)業(yè)優(yōu)勢明顯:在人力資源優(yōu)勢方面,具有相對充沛的人力資源,同時我省大數(shù)據(jù)學(xué)院專業(yè)培養(yǎng)體系完備,人才素質(zhì)較高;在資源優(yōu)勢方面,根據(jù)2018年8月國家發(fā)改委出臺的《關(guān)于支持山西省與京津冀地區(qū)加強協(xié)作實現(xiàn)聯(lián)動發(fā)展的意見》,京津冀作為全國電子信息產(chǎn)業(yè)發(fā)展高地,將為山西發(fā)展數(shù)據(jù)標注產(chǎn)業(yè)乃至整個人工智能產(chǎn)業(yè)帶來人才、資金、技術(shù)等全方位的外部優(yōu)質(zhì)資源;在產(chǎn)業(yè)基礎(chǔ)優(yōu)勢方面,我省已與人工智能龍頭企業(yè)百度公司深入合作,數(shù)據(jù)標注產(chǎn)業(yè)集聚地建設(shè)項目順利展開,以山西同方知網(wǎng)為代表的本地數(shù)據(jù)標注企業(yè)也已初具規(guī)模。

省委、省政府為了支持數(shù)據(jù)標注產(chǎn)業(yè)的發(fā)展,近年來陸續(xù)發(fā)布了《山西省數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展規(guī)劃(2019-2025年)》《山西省加快數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展的實施意見》《山西人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)專項資金管理辦法》等,為入駐山西綜改示范區(qū)的數(shù)據(jù)標注企業(yè)提供了一系列的扶持配套政策。

如今,通過大力引進龍頭企業(yè)、推進重大項目建設(shè)、加強專項資金支持等一系列舉措,三晉大地集數(shù)據(jù)采集、存儲、標注、服務(wù)等于一體的大數(shù)據(jù)融合創(chuàng)新產(chǎn)業(yè)持續(xù)壯大,信息技術(shù)應(yīng)用創(chuàng)新產(chǎn)業(yè)加速成長,新興數(shù)字平臺不斷涌現(xiàn)。

“《山西省加快數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展的實施意見》提出,到2025年,基礎(chǔ)數(shù)據(jù)服務(wù)體系基本完善,人工智能基礎(chǔ)數(shù)據(jù)開放平臺影響力大幅提升,山西將成為全國領(lǐng)先的基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)聚集地,數(shù)據(jù)標注產(chǎn)業(yè)年產(chǎn)值達到50億元,基礎(chǔ)數(shù)據(jù)服務(wù)年產(chǎn)值達到150億元,帶動人工智能相關(guān)產(chǎn)業(yè)年產(chǎn)值達到500億元?!笔」ば艔d大數(shù)據(jù)辦相關(guān)負責(zé)人表示。




最后文章空三行圖片.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。