《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信与网络 > 业界动态 > LeCun又火了!93年演示首个文本识别CNN视频冲上Reddit热榜

LeCun又火了!93年演示首个文本识别CNN视频冲上Reddit热榜

2021-01-12
來源:雷锋网
關(guān)鍵詞: LeCun 文本识别 卷积神经网络

 1.png

     提到卷積神經(jīng)網(wǎng)絡(luò)大家可能并不陌生。

  它是深度學(xué)習(xí)(Deep Learning)的經(jīng)典算法之一,自20世紀(jì)90年代以來,其在計(jì)算機(jī)視覺、自然語言處理領(lǐng)域不斷取得驚人的結(jié)果。

  卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)首次被用于文本識(shí)別演示是在1993年的貝爾實(shí)驗(yàn)室(AT&T Bell Laboratories),其的演示者是有”CNN之父“之稱的Yann LeCun。

  今天,LeCun在當(dāng)年的演示視頻再次被網(wǎng)友們挖出,并迅速登上了Reddit熱搜,收獲了近千人點(diǎn)贊。

  2.png

  有網(wǎng)友評(píng)論稱,在演示之前,像通用人工智能(AGI)和其他難題一樣,這種文本識(shí)別被認(rèn)為是不可能的完成的。

  3.png

  還有不少網(wǎng)友留言稱,他們是真正的工程師、向他們致敬!

  4.png

5.png

  據(jù)悉,這則視頻展示了世界上首個(gè)用于文本識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),是之后CNN被廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語言處理領(lǐng)域的重要開端。

  1

  CNN:手寫數(shù)字識(shí)別任務(wù)

  20世紀(jì)90年代初,LeCun加入了當(dāng)時(shí)世界上最負(fù)盛名的研究機(jī)構(gòu)之一貝爾實(shí)驗(yàn)室。彼時(shí)才32歲的他,與同事們創(chuàng)建了一個(gè)讀取并識(shí)別手寫數(shù)字的系統(tǒng),該系統(tǒng)是一個(gè)典型的端到端圖像識(shí)別系統(tǒng)。

  微信圖片_20210112135737.gif

  演示視頻中,系統(tǒng)快速且精準(zhǔn)地識(shí)別出了手寫數(shù)字210-949-4038。據(jù)說,這是LeCun在貝爾實(shí)驗(yàn)室的電話號(hào)碼。

  另外,它在處理更密集更多樣的數(shù)字識(shí)別任務(wù)時(shí)也表現(xiàn)出了良好性能,這在90年代是非常難能可貴的。

  微信圖片_20210112135757.gif

微信圖片_20210112135800.gif

  視頻中,參與這項(xiàng)實(shí)驗(yàn)的研究人員還有實(shí)驗(yàn)室負(fù)責(zé)人Rich Howard、和計(jì)算機(jī)專家Donnie Henderson。

  微信圖片_20210112135815.gif

  據(jù)了解,這項(xiàng)代碼開發(fā)主要是為了應(yīng)用于NCR(National Cash Register Coporation)的支票讀取系統(tǒng)。

  總體而言,由于數(shù)值計(jì)算能力有限、學(xué)習(xí)樣本不足,加上同一時(shí)期以支持向量機(jī)(Support Vector Machine, SVM)為代表的核學(xué)習(xí)(kernel learning)方法的興起,這一時(shí)期為各類圖像處理問題設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)還停留在實(shí)驗(yàn)室研究階段。

  不過,到了1998年,Yann LeCun及其合作者共同構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,并在手寫數(shù)字的識(shí)別問題中取得了進(jìn)一步的成功。截止90 年代末期,該系統(tǒng)已經(jīng)處理了美國 10%-20%的支票識(shí)別。

  其實(shí),LeNet-5神經(jīng)網(wǎng)絡(luò)早在1989年已經(jīng)被LeCun提出。LeNet的最初版本包含兩個(gè)卷積層,2個(gè)全連接層,共計(jì)6萬個(gè)學(xué)習(xí)參數(shù),規(guī)模遠(yuǎn)超TDNN和SIANN,且在結(jié)構(gòu)上與現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)十分接近 。

  值得一提的是,LeCun 在1989年發(fā)表的《使用反向傳播和神經(jīng)網(wǎng)絡(luò)識(shí)別手寫數(shù)字》的論文中,在論述其網(wǎng)絡(luò)結(jié)構(gòu)時(shí)首次使用了”卷積“一詞,”卷積神經(jīng)網(wǎng)絡(luò)“由此誕生,之后LeCun便被業(yè)內(nèi)稱為”CNN之父“。

  2

  MNIST數(shù)據(jù)集

  基于這項(xiàng)實(shí)驗(yàn),LeCun還創(chuàng)建了經(jīng)典手寫數(shù)據(jù)集MNIST,它是用于研究機(jī)器學(xué)習(xí)、模式識(shí)別等任務(wù)的高質(zhì)量數(shù)據(jù)庫,被Hinton稱為”機(jī)器學(xué)習(xí)界的果蠅“。

  10.png

  MNIST 手寫數(shù)字圖像數(shù)據(jù)集作為機(jī)器學(xué)習(xí)基準(zhǔn)已經(jīng)使用了二十余年。它包含訓(xùn)練集和測(cè)試集,訓(xùn)練集包含 60000 個(gè)樣本,測(cè)試集包含 10000 個(gè)樣本,每個(gè)樣本都是一張28 * 28像素的灰度手寫數(shù)字圖片。

  11.png

  MNIST數(shù)據(jù)集包含各種(0~9)手寫數(shù)字

  據(jù)悉,MNIST 數(shù)據(jù)集抽取自 NIST 數(shù)據(jù)庫。其中的訓(xùn)練數(shù)據(jù)來自2000 名人口普查局雇員的手寫字符,測(cè)試數(shù)據(jù)來自500名在校生的手寫字符。由于測(cè)試集樣本較少,MNIST很難再提供有意義的置信區(qū)間。2019年6月,來自 Facebook 和紐約大學(xué)的研究者對(duì)該數(shù)據(jù)集進(jìn)行了擴(kuò)展和重建,在測(cè)試集中新增了50000 個(gè)樣本。對(duì)此,LeCun在推特上轉(zhuǎn)發(fā)稱,這個(gè)新數(shù)據(jù)集重生、恢復(fù)、擴(kuò)展了MNIST。

  目前該數(shù)據(jù)集包括以下四個(gè)文件內(nèi)容:

  12.png

  手寫數(shù)字識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本項(xiàng)目,相當(dāng)于傳說中機(jī)器學(xué)習(xí)入門的”Hello World“,因此MNIST數(shù)據(jù)集也被開發(fā)者廣泛使用。

  3

  深度學(xué)習(xí)之父Yan LeCun

  自1998年之后,LeCun一直深耕于深度學(xué)習(xí)領(lǐng)域,還發(fā)表了多項(xiàng)重要論文,如OverFeat檢測(cè)框架、CNN用于立體匹配、DropConnect方法等,總引用量超過了100000+。

  2015年,他與蒙特利爾大學(xué)教授Yoshua Bengio、谷歌副總裁兼工程研究員Geoffrey Hinton合著發(fā)表了《深度學(xué)習(xí)》的綜述論文,并登上了Nature。

  LeCun是CNN的重要推動(dòng)者。2018年,Yann因”將反向傳播算法引入了CNN(卷積神經(jīng)網(wǎng)絡(luò)),并且發(fā)明了權(quán)值共享、池化等技巧,讓CNN真正更為可用“還獲得了ACM(Association for ComputingMachinery, 國際計(jì)算機(jī)協(xié)會(huì))頒發(fā)的2018圖靈獎(jiǎng)。

  13.png

  在宣布獲獎(jiǎng)?wù)邥r(shí),ACM學(xué)會(huì)稱三位計(jì)算機(jī)科學(xué)家為”深度學(xué)習(xí)革命之父“,并指出,”三位科學(xué)家在概念和工程學(xué)方面取得的突破,讓深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵部分“。

  圖靈獎(jiǎng)有”計(jì)算機(jī)界的諾貝爾獎(jiǎng)“之稱,由英國數(shù)學(xué)家艾倫·圖靈名字而來——因其發(fā)明了最早的人造計(jì)算機(jī)模型”圖靈機(jī)“。與之共同獲獎(jiǎng)的還有Yoshua Bengio、Geoffrey Hinton。

  值得一提的是,Hinton還是LeCun在多倫多大學(xué)讀博期間師的導(dǎo)師。Hinton主要研究使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)、記憶、感知和符號(hào)處理的方法。當(dāng)時(shí)的深度神經(jīng)網(wǎng)絡(luò)學(xué)科是個(gè)大冷門,LeCun對(duì)神經(jīng)網(wǎng)絡(luò)的研究受到了Hinton的不少的指導(dǎo)和幫助。

  除此之外,LeCun還曾獲得IEEE神經(jīng)網(wǎng)絡(luò)先驅(qū)獎(jiǎng)(2014)、IEEE PAMI杰出研究員獎(jiǎng)(2015)。目前他是紐約大學(xué)數(shù)據(jù)科學(xué)中心創(chuàng)辦主任、Facebook副總裁兼首席人工智能科學(xué)家。

  在2020 AAAI 協(xié)會(huì)上,LeCun針對(duì)AI的未來發(fā)表了名為《Self-Supervised Learning》的主題演講,他認(rèn)為深度學(xué)習(xí)已至瓶頸,而自監(jiān)督學(xué)習(xí)才是AI的光明前景。他說,雖然在自動(dòng)駕駛、語言翻譯、聊天機(jī)器人等方面,深度學(xué)習(xí)方法有著一席之地,但是卻無法創(chuàng)作出「真正的」人工智能。

  而自監(jiān)督學(xué)習(xí)因?yàn)槟芨咏祟惖膶W(xué)習(xí)程序,將會(huì)是未來的發(fā)展趨勢(shì)。

 


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。