《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > 眼擎科技如何為AI機器打造超級視覺?

眼擎科技如何為AI機器打造超級視覺?

2018-03-11
關(guān)鍵詞: 芯片 AI

  去年以來,人工智能從技術(shù)走向應(yīng)用,從云端走向終端。隨之而來的是各類公司對各個應(yīng)用場景的挖掘。為了滿足人工智能終端設(shè)備對計算的需求,人工智能芯片趁勢興起。

  當(dāng)前,人工智能主流的應(yīng)用仍是圍繞圖像做文章,尤其對于自動駕駛,通過攝像頭看懂、看清周圍環(huán)境的能力異常重要。但圖像質(zhì)量恰恰是其中的一個痛點——現(xiàn)有的攝像頭對光線環(huán)境的適應(yīng)力太差,遠(yuǎn)不如人眼,輸出的低質(zhì)量圖像數(shù)據(jù)嚴(yán)重制約了AI算法的能力發(fā)揮。

  但在四年之前,就有一家公司成立,力圖解決這個問題。日前,智東西造訪眼擎科技,與GTIC 2018重磅嘉賓——眼擎科技創(chuàng)始人兼CEO朱繼志進行深度對話,了解了這家公司4年來在技術(shù)上的修行,以及其成像引擎將對AI應(yīng)用所起到的價值。

  一、技術(shù)研發(fā):耗時四年打磨 目標(biāo)超越人眼

  北大電子系畢業(yè)的朱繼志在成立眼擎科技之前,先任職于中興視訊通訊部。在這段為期十年的工作經(jīng)歷中,朱繼志負(fù)責(zé)視頻圖像的技術(shù)開發(fā)工作以及技術(shù)的產(chǎn)品化,對技術(shù)與產(chǎn)品的雙重經(jīng)驗讓他成為了圖像處理這個行業(yè)的老江湖。

  后來,朱繼志又投身芯片行業(yè),擔(dān)任國內(nèi)最大芯片分銷商副總裁,在8年的時間里對接手機、家電、汽車等對芯片有大量需求的行業(yè),也摸透了芯片的產(chǎn)品開發(fā)邏輯與下游行業(yè)的不同需求。

  這兩段經(jīng)驗日后被捏合,成就了現(xiàn)在的眼擎科技。

  2014年,對圖像處理行業(yè)仍保持高度關(guān)注的朱繼志看到了一個機會——人們?nèi)粘I钪械南鄼C實在是太過孱弱:逆光、暗光、強光、多光源,任意一種復(fù)雜光線情況,都會讓相機輸出的圖片不忍直視,不是暗部一團黑就是亮部一片白,再加上各種顏色失真、噪點爆表,與人眼所見相去甚遠(yuǎn)。而在數(shù)碼攝影誕生的數(shù)十年里,盡管成像的關(guān)鍵元器件——CMOS圖像傳感器(此前也流行CCD,但已退出主流市場)一直保持著迭代,但直到今天,這些問題都沒有得到有效解決。

  當(dāng)年,朱繼志主導(dǎo)成立了眼擎科技,英文取名“eyemore”,意在使其產(chǎn)品的成像能力對標(biāo)乃至趕超人眼。

  朱繼志認(rèn)為,現(xiàn)有的成像系統(tǒng)對光線適應(yīng)能力差與產(chǎn)業(yè)鏈上游的日系廠商主導(dǎo)的全局成像路徑有很大的關(guān)系。而朱繼志對此的解法是——分區(qū)域、分層成像,即將成像對象分解為大量的小格子,用自研的成像算法對每個格子中的數(shù)字信號進行分別計算,使得每個小格子中的圖像都輸出最好的成像效果。

  原理聽上去不難理解,公司成立的第一年,朱繼志帶領(lǐng)團隊打造了一個原型,經(jīng)過驗證,技術(shù)可行。當(dāng)年,眼擎拿到了來自柔宇科技投資人楊向陽的天使投資。

  但事情遠(yuǎn)沒有那么簡單。成像算法是一個牽一發(fā)而動全身的事情,或許只是為了調(diào)整了一個暗部的亮度,整張圖片的亮度就同時生變。要使成像算法能夠應(yīng)對各種光線條件,就需要針對一個個場景進行具體的調(diào)參。比如自動駕駛車進隧道時,光源會從自然光瞬間變成人造光,光線強度也會經(jīng)歷強—弱—中這樣的快速變動,此時攝像頭穩(wěn)定輸出明亮、清晰圖像的能力將大受挑戰(zhàn)。

  要應(yīng)對這種情況,只能去隧道實地測試,一遍遍地優(yōu)化應(yīng)對這種場景的算法。而不同的場景,還有很多, 這件事花了眼擎團隊三年。

  同時,為了滿足更復(fù)雜成像架構(gòu)帶來的巨大運算需求,眼擎還打造了一個獨立ISP(Image Signal Processor,圖像信號處理器),來承載眼擎自研的算法。

  二、產(chǎn)品落地:芯片承載成像引擎 為AI機器打造視覺器官

  到2017年,眼擎的成像方案初步成熟,接下來該進入產(chǎn)品化的階段。

  在進行技術(shù)開發(fā)的幾年中,眼擎曾面向消費者市場推出過Demo類的產(chǎn)品進行探索。但朱繼志很快發(fā)現(xiàn)普通消費者對成像效果的喜好似乎是個玄學(xué)——人們根據(jù)不同的需求,對圖像質(zhì)量的評判各有一套主觀的標(biāo)準(zhǔn)。或許某些人希望自己能被拍得更白,某些人則希望圖像里的色彩更艷。眼擎準(zhǔn)確輸出圖像中各種物體色彩、紋理、材質(zhì)細(xì)節(jié)的能力,在這種情況下并沒有形成優(yōu)勢。

  不過這幾年暴漲的機器視覺市場為眼擎提供了更大的機會。無論是手機上的人臉識別、還是安防、或是自動駕駛,對運行人工智能算法的機器來說,它們需要的都是客觀、準(zhǔn)確、清晰的圖像數(shù)據(jù),這正是眼擎的強項。

  找準(zhǔn)To B的市場,眼擎的產(chǎn)品應(yīng)運而生——eyemore X42成像芯片。這塊成像引擎芯片凝聚了眼擎創(chuàng)業(yè)四年的成果,針對超過500種不同場景封裝了二十余種智能成像算法。同時,由于采用全新的成像架構(gòu),其單像素的計算能力比封裝在SoC上的集成ISP提升了20倍。這塊芯片有著推動機器視覺再向前一步的力量,而朱繼志也喜歡把它稱為成像引擎。

  這些參數(shù)的背后,是它面對復(fù)雜光線實打?qū)嵉母咚刭|(zhì)成像能力。在智東西實際體驗的弱光成像演示中,搭載了眼擎成像引擎方案的攝像頭在室內(nèi)只有一臺電腦顯示屏作為光源的條件下,呈現(xiàn)出了明亮、清晰、色彩還原度相當(dāng)高的圖像,而手機在這種場景中為了拍出明亮的電腦顯示屏,已經(jīng)完全放棄了暗部的成像。而人眼在這樣的照度下,也早已無法分辨物體的色彩。

5aa093d852530-thumb.png

  ▲上圖為暗光環(huán)境下eyemore成像效果 下圖為正常光線條件下現(xiàn)場圖片

  在不依靠紅外光等主動照明的情況下,眼擎的的確確實現(xiàn)了弱光環(huán)境下對人眼的超越。在朱繼志看來,這非常關(guān)鍵。

  他很認(rèn)同馬斯克在自動駕駛上的一個看法——“激光雷達是自動駕駛的拐杖。”朱繼志認(rèn)為激光雷達之所以在自動駕駛中如此受歡迎,正是攝像頭的被動光學(xué)成像沒有將潛力發(fā)揮到極致,才需要激光雷達這樣的主動光學(xué)成像系統(tǒng)。但一旦攝像頭能在更復(fù)雜的情況下看得比人清楚、比人看到更多的色彩,那么人工智能會有更加優(yōu)質(zhì)的圖像數(shù)據(jù)可用,能夠進一步發(fā)揮其在識別物體、感知環(huán)境上的能力。

  畢竟,人類依靠雙眼已經(jīng)能夠很好地完成駕駛?cè)蝿?wù)。比人眼更加優(yōu)秀的成像系統(tǒng),不僅將使自動駕駛變得更加容易,也能夠運用在其他場景中。

  不過,朱繼志認(rèn)為這還不夠。因為人眼擁有的超強視覺能力,并不只在于擁有多么優(yōu)秀的光學(xué)系統(tǒng),更重要的是,它通過神經(jīng)與大腦無時不刻地進行著交互,通過聚焦的形式屏蔽不重要的信息,將注意力放在真正關(guān)鍵的視覺區(qū)域和物體上。

  要達到真正的智能,處在成像步驟前端的眼擎,需要和后端的AI進行交互,了解AI真正需要什么。于是,眼擎的團隊又為成像引擎設(shè)計了一套與后端AI算法的交互架構(gòu),來獲知AI對圖像的需求。在必要的時候,這套設(shè)計可以像人眼的聚焦一樣,將計算資源集中起來,對AI關(guān)心的某一幀圖像或者圖像中的某個區(qū)域進行更高質(zhì)量的成像。

  朱繼志稱,這種與AI系統(tǒng)的交互能力,將使得成像系統(tǒng)真正成為AI的有機器官。

  三、商業(yè)定位:做技術(shù)方案商 已找到四大應(yīng)用場景

  在eyemore X42成像芯片的量產(chǎn)提上日后后,2018年,眼擎的工作重點開始變?yōu)閷⒓夹g(shù)運用到各類終端產(chǎn)品。

  這時候,朱繼志在芯片行業(yè)的經(jīng)驗開始進一步發(fā)揮作用。目前,眼擎為其技術(shù)先確立了六大應(yīng)用場景:自動駕駛(汽車)、手機、安防、工業(yè)檢測、機器人、無人零售。這其中大部分,都是朱繼志曾經(jīng)接觸過的下游。

  在商業(yè)模式上,朱繼志想得很清楚,這些行業(yè)都有不低的進入門檻,有些早已巨頭林立,因此眼擎選擇的方式是賦能——定位上游的技術(shù)方案商,向下游打造終端產(chǎn)品的公司輸出自己的成像能力。

  為了讓成像引擎這個新生兒更好地被合作伙伴們驗證、接受,在eyemore X42這枚ASIC芯片量產(chǎn)之前,眼擎就用FPGA打造了開發(fā)工具套件,供下游公司試用,也借此收集反饋意見。

  到eyemore X42量產(chǎn)時,眼擎又提供不同能力的API接口,降低下游的開發(fā)難度。

  目前,眼擎已經(jīng)與電商行業(yè)的公司合作,打造出了一款智能3D掃描儀。在這臺單目的深度相機上,眼擎提供了單次曝光同時呈現(xiàn)亮部、暗部細(xì)節(jié),以及準(zhǔn)確輸出商品色彩、紋理的能力。

  今年,眼擎正在和超過20家來自不同行業(yè)的公司合作,讓eyemore X42成像芯片進入各類終端產(chǎn)品中。在自動駕駛這個場景,眼擎的合作伙伴不乏自動駕駛的頭部明星公司。今年五月,眼擎將針對這一市場推出超寬動態(tài)輔助駕駛視覺成像方案,視覺動態(tài)范圍超過100dB,并且滿足車規(guī)要求。

  而面向不同行業(yè)的具體需求(比如汽車行業(yè)的芯片需要過車規(guī)),眼擎也將采取IP授權(quán)的形式,讓相關(guān)行業(yè)的公司來對芯片進行針對性的開發(fā)、生產(chǎn)。

  結(jié)語:從底層搶占人工智能時代的視覺入口

  在近兩年的人工智能發(fā)展高潮中,以后端為主的人工智能算法公司層出不窮,并率先獲得廣泛關(guān)注。AI視覺算法公司,在其中占據(jù)了大頭。

  而隨著AI的概念逐漸明晰、產(chǎn)業(yè)進一步發(fā)展,人工智能越來越快地走向落地、走向普通人的日常生活、從云端走向終端。這時候,承載軟件算法的計算硬件重要性凸顯出來。

  而回過頭看,由于硬件的高門檻,有勇氣踏入這個方向并耐得住數(shù)年寂寞研發(fā)技術(shù)的公司并不多。

  從底層入手,花四年打磨技術(shù)的眼擎,已經(jīng)在產(chǎn)業(yè)鏈中占住了一個空當(dāng),分食越來越大的AI視覺蛋糕。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。