123,123

旷视联合智源发布全球最大物体检测数据集Objects365，举办CVPR DIW2019挑战赛

日期： 2019-04-21

關鍵詞： 人工智能 BAAI 图像感知智能模型设计

4 月 16 日，北京智源人工智能研究院（Beijing Academy of Artificial Intelligence，BAAI，2018 年 11 月 14 日成立）在北京會議中心召開了「智源學者計劃暨聯合實驗室發(fā)布會」。

北京智源人工智能研究院（簡稱「智源研究院」）是在科技部和北京市委市政府的指導和支持下，由北京市科委和海淀區(qū)政府推動成立，依托北京大學、清華大學、中國科學院、百度、小米、字節(jié)跳動、美團點評、曠視 MEGVII 等北京人工智能領域優(yōu)勢單位共建的新型研發(fā)機構。

引進培育高端人才、共建聯合實驗室、建設人工智能社區(qū)、加強產學研合作，是智源研究院的主要四項任務。

智源研究院聯合曠視，

成立智能模型設計與圖像感知聯合實驗室

智源聯合實驗室分為兩類，分別是與高校院所共建、與優(yōu)勢企業(yè)共建。在聯合實驗室的建設上，智源研究院遵循「成熟一個、啟動一個」的原則，擇優(yōu)支持共建，最多可連續(xù)支持三年。

「北京智源-曠視智能模型設計與圖像感知聯合實驗室」已通過立項論證，成為北京智源聯合實驗室首個成功落地的項目，擬由曠視首席科學家、曠視研究院院長孫劍任實驗室主任，資深研究員周舒暢任實驗室副主任。

微信圖片_20190421154009.jpg

曠視首席科學家、曠視研究院院長孫劍

孫劍表示，成立這個實驗室，既有國家戰(zhàn)略層面的考慮，也是為了解決行業(yè)痛點。

2017 年 7 月，國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》，人工智能上升為國家戰(zhàn)略。建立開源開放的人工智能開放創(chuàng)新平臺，服務企業(yè)應用技術開發(fā)成為當前該領域的難點。

國家也希望龍頭企業(yè)，通過打造人工智能開源開放創(chuàng)新平臺，調動產學研，社會各類創(chuàng)新創(chuàng)業(yè)主體參與共同打造我國自主知識產權的產業(yè)生態(tài)，提升國際影響力，促進行業(yè)整體發(fā)展。

而北京市是第一個國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)，因此希望充分調動北京技術、人才方面優(yōu)勢，通過組織機制創(chuàng)新，通過創(chuàng)新舉措，依托龍頭行業(yè)牽引進行多主體協同創(chuàng)新，打造我國乃至全球技術高地。

現在確實有大量的高校、研究院所、創(chuàng)新創(chuàng)業(yè)人員和行業(yè)客戶，想參與到人工智能創(chuàng)新中，但苦于沒有數據，算力或算法等資源，無法施展。

因此，曠視與智源研究院通過聯手打造數據集和建設聯合實驗室，推動整個行業(yè)協同創(chuàng)新發(fā)展，建設共性技術開放創(chuàng)新平臺，構建自主可控產業(yè)生態(tài)，突破人工智能重大核心共性關鍵技術，推動行業(yè)全面演進。

全球最大的物體檢測數據集 Objects365 發(fā)布

會上，曠視研究院聯合北京智源人工智能研究院發(fā)布了全球最大的物體監(jiān)測數據集 Objects365。

微信圖片_20190421154150.jpg

Objects365 樣例

「我們的目的是打造世界上最大規(guī)模的通用物體數據檢測集，做到規(guī)模大、質量高、泛化能力強?！?/p>

孫劍介紹，「我們第一批定義在生活中最常見的 365 個類別，比如，室內常見的椅子、桌子、茶杯、瓶子都包含在這個類別中。第一階段，我們已經標注了超過 60 萬張這樣的圖片，其中這些標注框已經超過了 1000 萬?！?/p>

這個數據集有多大？孫劍將微軟 2014 年創(chuàng)建的大規(guī)模圖像物體檢測數據集 COCO 作為參照物，將二者進行了對比，「COCO 是目前最大的、全標注數據集，訓練數據大概 12 萬，總共數據大概不超過 20 萬，其中還有很多數據沒有標。我們（Objects365）第一期開放（的）圖片數是 COCO 的 5 倍，標注框超過 COCO 的 11 倍。」

微信圖片_20190421154249.jpg

「我們的目標是，三年內，這個數據集達到 200 萬張圖片，2400 萬個標注框?！箤O劍說。

算法優(yōu)化的上限嚴重依賴于基準數據集術的質量。為保證標注質量，在打造 Objects365 時，曠視設計出一套科學而嚴格的標注流程，每一張圖片的背后至少會經過 9 名標注工人之手。

此外，作為一個優(yōu)秀的預訓練數據集，Objects365 預訓練模型在使用過程中，可以輕松超越現有算法的精度，顯著加速收斂過程，表現出極強的泛化能力。在執(zhí)行 COCO、VOO Det、CityPersons 等檢測任務時，在 VOC Seg 和 ADE 等分割任務上均有顯著提升。

如何共建聯合實驗室？

「一個平臺、四個突破點」

「北京智源-曠視智能模型設計與圖像感知聯合實驗室將圍繞『一個平臺、四個突破點』進行建設?！箤O劍介紹道。

「一個平臺」是指，建設一體化的數據共享、模型設計和場景測試的開放創(chuàng)新平臺。

「四個突破點」是指，在數據方向、模型方向、真實數據測試方向和模型部署方向做技術突破，推進大數據背景下模型架構設計、優(yōu)化和部署等方面的研究。

「深度學習成不成功，很大程度上取決于數據，很多靠算法帶來的提升遠低于一個高質量的數據（集）所能帶來的提升?！箤O劍說。

除了最新發(fā)布的 Objects365，曠視此前還發(fā)布了大規(guī)模擁擠場景人體檢測數據集 CrowdHuman 及一些數據標注工具。

實驗室將立足曠視算法落地場景豐富、數據積累深厚的優(yōu)勢，以開源數據集、預抽取特征等形式，持續(xù)開放通用物體分類、物體檢測追蹤、人像人形識別屬性等視覺問題數據，助力相關領域研究。

針對高搜索效率、高準確率、高靈活性等關鍵指標，該實驗室還將開展支持大計算量模型的新神經網絡架構搜索算法（NAS）研究，構建一站式深度模型自動化設計平臺等工作。

該平臺包括面向特定問題的自動化深度模型設計工具、自動化數據篩選/數據增強工具、自動化深度學習模型優(yōu)化工具，從而在 Object365 上實現自動訓練比純人工調優(yōu)精度超過至少一個百分點，消耗卡時不超過三倍的目標。

實驗室還將開放眾多預訓練模型，包括 ResNet、ShuffleNet 這樣的基礎模型以及 Faster RCNN、Mask RCNN、SSD 檢測模型。

近年來，模型架構搜索（NAS）成為了 AI 領域的熱門研究方向。

不久前，曠視首次披露了 NAS 新成果：單路徑 One-Shot 模型。這是一個簡單靈活的通用模型搜索框架，支持構建塊（building block）、通道（channel）和混合精度（mixed-precision）多搜索空間聯合搜索；支持任意直接度量方法做硬約束（hard constraint），從而滿足實際業(yè)務要求。據介紹，同等情況下，單路徑 One-Shot NAS 的搜索精度和速度均超過目前公開的 FBNet、ProxylessNAS 等 SOTA 框架。

「很多時候，我們把一個技術（算法）落地，真的是不是能在實際數據中做得很好，其實不知道的。實際數據中有一些是非公開數據，不能到真正的場景中去測；另外一些數據涉及到隱私，需要脫敏?！箤O劍說，聯合實驗室的計劃是，提供一個實戰(zhàn)場景開發(fā)和測試環(huán)境，大家上交模型，在這個環(huán)境中進行測試。

聯合實驗室將建設人臉抓拍識別、結構化檢測、大規(guī)模人像比對等驗證場景，提供自動分析報告服務，為研究算法調優(yōu)提供環(huán)境。他們還將積極探索低位寬等網絡壓縮技術，研發(fā)高效硬件部署方案，推動模型研究成果迅速投入實用。

針對計算機視覺算法與真實場景適配的問題，實驗室還將建設可重現的實景測試環(huán)境，并提供自動化的量化錯誤分析報告，幫助算法迭代。

「通過以上措施，實驗室將被打造成為一個開放、貼近實際場景的計算機視覺算法研究實驗平臺，形成涵蓋數據、平臺、場景的完整閉環(huán)，有利于打造我國自主可控的技術和產業(yè)生態(tài)，共同助力我國圖像感知和計算領域的技術及應用達到國際先進水平?！箤O劍表示，實驗室平臺建成后，將面向高校院所、創(chuàng)業(yè)企業(yè)等創(chuàng)新創(chuàng)業(yè)主體開放，致力推動圖像感知與計算領域的協同創(chuàng)新。

DIW2019 挑戰(zhàn)賽啟動，

3 個賽道冠軍將各獲 1 萬美金獎勵

「我們的目標是建設開源社區(qū)、打造產業(yè)生態(tài)。」孫劍說。

除了開放預訓練模型，開源數據標注、模型分析、模型自動調優(yōu)等全套相關工具，他們還將提供實驗例程、開源完整的訓練代碼庫，支持高校本科及研究生教學，每年培訓學生人數不少于 500 人；每年還會組織圍繞平臺的國際比賽。

今年，曠視聯合智源研究院舉辦 Detection In the Wild 2019（DIW 2019）挑戰(zhàn)賽。

孫劍介紹，DIW 2019 挑戰(zhàn)賽是基于 2019 年 CVPR 的 workshop（研討會），為了推動目標檢測技術的發(fā)展而設計的，可以改善現有目標檢測數據集的類別覆蓋不全，標注精度不高，密集場景缺少等問題。

DIW 2019 挑戰(zhàn)賽共有三個賽道：

Objects365 賽道：選手利用公開的 365 種類別，60 萬張圖片超過 1000 萬個框的完整訓練集對檢測模型進行訓練；在 3 萬張圖片構成的驗證集上調試算法，并在 10 萬張圖片構成的測試集上進行最終挑戰(zhàn)。

Objects365 小賽道：從 Objects365 數據集中挑選出 65 個類別，選手可以用 1 萬張圖片進行模型訓練。

CrowdHuman 賽道：為了解決現實生活中的遮擋問題，其算法的提升將會推動人體檢測算法落地。屆時，選手將基于專門為了密集場景人體檢測設計的 CrowdHuman 數據集進行訓練，數據集包含有豐富標注信息和多種場景。

挑戰(zhàn)賽已于發(fā)布會當天啟動；5 月 10 日，將開放測試集；6 月 12 日，結果提交截止；最終結果將在 6 月 17 日（美國當地時間）公布。每個賽道的冠軍將獲得 1 萬美金獎勵，優(yōu)勝隊伍將被邀請至 CVPR 的研討會上做經驗分享。

「智源學者計劃」啟動，

每人每年至少可獲 50 萬支持

發(fā)布會當天，智源研究院還啟動了「智源學者計劃」。

「『智源學者計劃』的目標，就是要找到最好的人，給他自由支配的經費，提供他需要的資源，支持開展人工智能領域特定方向上的重大基礎問題研究，或者開展前沿問題的自由探索。」黃鐵軍院長說。

「智源學者計劃」將依托北京大學、清華大學、中科院等優(yōu)勢高校院所，以及曠視等骨干企業(yè)研究院，對智源科學家首席（CS）、智源研究項目經理（PM）、智源研究員（PI）和智源青年科學家（38 歲以下）四類人才進行重點支持。

經過提名、初評、審議等流程，已經遴選出首批智源學者候選人，共 21 人，并即將啟動公示程序。

據悉，首批青年科學家推選工作開展以來，清華、北京各單位專家共計推選了 54 名候選人，參加答辯 42 人，經專家評審，最終選出了 9 名。年級最輕的一位僅 28 歲，是曠視研究院模型研究組負責人張祥雨博士。

在官網上進行一個月公示后，若無意外，智源研究院將與他們簽訂聘任協議。

屆時，智源研究院將直接向他們支付費用，不用走單位的人事體制。黃院長說，「我們看重他是一個有潛力的人，我們就直接給他，大概就是不低于 50 萬的每年的支持力度（每個人）?！?/p>

這些智源學者不需要在智源研究院辦公，還在原單位繼續(xù)從事學術研究, 成果也全部屬于其所在單位，「研究院不擁有也不期望去獲得任何知識產權」，「因為他做的是人工智能，是符合國家的戰(zhàn)略方向，是符合北京市的方向，所以我們給他支持。」黃院長說。

此外，這些智源學者在科研工作中所需要的經費，也會獲得研究院支持。黃院長表示，只要不用到違規(guī)，怎么用，完全由自己決定。

黃院長還表示，智源學者的申報不是每年只有一次，而是不分批次，只要是符合要求的人才，通過申報程序，可以隨時進入研究院支持的范圍。

微信圖片_20190421154315.jpg

今年，智源研究院將計劃遴選智源學者 100 人，大概覆蓋 5 到 7 個重大方向，其中，青年科學家 30-50 人。2020 年和 2021 年再分別增加 100 人，智源學者總體規(guī)模保持在 300 人左右。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

旷视联合智源发布全球最大物体检测数据集Objects365，举办CVPR DIW2019挑战赛

日期： 2019-04-21

相關內容