123,123,123

　　百度“小灵”首秀，AI为何能赚足眼球？

日期： 2019-05-26

關(guān)鍵詞： AI 3D AR

　　今年是“五四運(yùn)動(dòng)”一百周年，中央廣播電視總臺(tái)舉辦了主題為“我們都是追夢人”的 2019《五月的鮮花》五四晚會(huì)，在這場晚會(huì)中，百度大腦arget="_blank">AI虛擬主持人“小靈”在眾多高顏值主持人、演員中脫穎而出，賺足了觀眾們的眼球。

　　眼前一亮美少女

　　在很多的印象當(dāng)中，機(jī)器人只是十分機(jī)械的機(jī)器與數(shù)據(jù)的結(jié)合，但是從鮮花通道中一出場的虛擬主持人“小靈”，就讓人眼前一亮，得益于百度強(qiáng)大的3D建模技術(shù)和AR能力，化身成為立體3D的美少女，與尼格買提、王俊凱同臺(tái)競技。

　　活潑靈動(dòng)開口脆

　　“小靈”并非是第一位人工智能主持人，可相比于不討好的機(jī)器音，“小靈”的音色顯得自然很多，讓人聽著有一種舒適感，原因在于百度在AI語音庫的制作上花了很大的功夫。AI語音庫制作的步驟大概是三步：第一先確定音色、風(fēng)格、產(chǎn)品的特征，將文本變成音頻；第二配音員根據(jù)需求試音，收集錄音；第三步投入生產(chǎn)線，進(jìn)行錄音效果優(yōu)化，豐富音色。百度大腦為此準(zhǔn)備了幾十個(gè)音庫，找播音主持專業(yè)的學(xué)生專業(yè)錄制了各式各樣的聲音，具備非常豐富的音色矩陣。

　　表情唇動(dòng)顯自然

　　除了聲音信息外，唇動(dòng)視覺同樣非常重要。人的表情由面部肌肉和唇動(dòng)共同組成，而人在不同的場合、心情的表情千差萬別，可能有些時(shí)候我們都不能把一些表情進(jìn)行正確的分類，但是“小靈”可以做到。百度基于“大量的面部特征數(shù)據(jù)”提供了唇動(dòng)技術(shù)，百度稱之為“國內(nèi)首家三維”唇動(dòng)“系數(shù)預(yù)測”，可以做到“自動(dòng)將輸入式音頻直接生成唇形動(dòng)畫”。百度大腦在檢測到人臉后，對(duì)人臉進(jìn)行分析，對(duì)眼、耳、鼻嘴等150個(gè)關(guān)鍵點(diǎn)進(jìn)行定位，識(shí)別出人的年齡、性別、表情等，然后基于這些面部特征，用深度學(xué)習(xí)的算法去學(xué)習(xí)歸納，學(xué)習(xí)人類的表情，使得表情更加豐富自然，便形成了我們看到的人工智能虛擬主持人“小靈”在晚會(huì)上能夠“真實(shí)唇動(dòng)”。

　　過去AI虛擬人物在說話的時(shí)候嘴巴一張一合，說話與嘴巴不匹配也讓人感到十分尷尬。百度大腦基于大量的面部特征數(shù)據(jù)，對(duì)說話人的唇動(dòng)的行為特性進(jìn)行了大量的研究，通過人工智能的深度學(xué)習(xí)，完成了國內(nèi)首家“唇動(dòng)”系數(shù)預(yù)測。截止到目前，市面上只有百度可以自動(dòng)將輸入式音頻直接生成唇形動(dòng)畫。

　　知識(shí)積累超豐富

　　在晚會(huì)上，“小靈”會(huì)和觀眾打趣“如果掌聲再熱烈一點(diǎn)，我會(huì)有更出色的表現(xiàn)”。還有這樣一個(gè)場景：談及自己的“第一部動(dòng)畫片” ，主持人小尼想要分享《喜洋洋灰太狼》，“小靈”卻打斷他：“小尼哥，這是00后的童年回憶，屬于你的應(yīng)該是《黑貓警長》、《葫蘆兄弟》?！?/p>

　　“小靈”妙語連珠的口才、極佳的場控能力，不失為全場最精彩的地方。這個(gè)背后，需要實(shí)時(shí)互動(dòng)與理解，更需要“知識(shí)”，而這與百度的人工智能算法和超過千億級(jí)的知識(shí)圖譜不無關(guān)系。

　　百度知識(shí)圖譜依托海量的日志數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和行業(yè)數(shù)據(jù)，綜合運(yùn)用語義理解、知識(shí)挖掘、知識(shí)整合與補(bǔ)全等技術(shù)，提煉出高精度知識(shí)，并組織成圖譜，進(jìn)而基于知識(shí)圖譜進(jìn)行理解、推理和計(jì)算等，在此基礎(chǔ)上，支持百度眾多產(chǎn)品，并且拓展出廣泛的應(yīng)用場景。據(jù)悉，知識(shí)圖譜已經(jīng)助力DuerOS（對(duì)話式人工智能系統(tǒng)）實(shí)現(xiàn)10大類目超過100種能力，為智能音箱、智能電視等各類終端產(chǎn)品帶來全面精準(zhǔn)的人機(jī)交互問答能力。

　　知識(shí)圖譜還能根據(jù)已有知識(shí)進(jìn)行推理。例如，根據(jù)“爆炸或者燃燒物質(zhì)和裝置不可以帶上飛機(jī)”、“酒精是爆炸或者燃燒物質(zhì)”這兩個(gè)知識(shí)，推斷酒精不可以帶上飛機(jī)，當(dāng)用戶輸入查詢之后，將直接反饋推斷結(jié)果。知識(shí)圖譜的加持，實(shí)現(xiàn)用戶與應(yīng)用之間更智能的交互。

　　人機(jī)交互AR

　　在百度APP小靈AR界面上，諸如“北大紅樓名字的由來”等五四主題內(nèi)容，“小靈”都可以對(duì)答如流。在現(xiàn)場以及百度APP“五四青年節(jié)”搜索結(jié)果頁都能參與的“通過人臉識(shí)別來測是什么花”活動(dòng)，觀眾還可以通過百度APP掃描二維碼，讓小靈直接出現(xiàn)在觀眾的手機(jī)屏幕上，實(shí)現(xiàn)實(shí)時(shí)互動(dòng)，這都是依托于百度AR Lab（百度增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室）。百度AR在今年的開發(fā)者大會(huì)上推出了DuMix AR 3.0，在MVP部分定義場景，然后對(duì)內(nèi)容進(jìn)行感知，根據(jù)不同要求進(jìn)行呈現(xiàn)，對(duì)目標(biāo)進(jìn)行跟蹤，最后通過人臉表情、肢體手勢、語音等進(jìn)行人機(jī)交互，然后運(yùn)用平臺(tái)工具對(duì)素材進(jìn)行制作管理，完成上線，最后進(jìn)入商業(yè)化運(yùn)營。百度AR Lab的業(yè)務(wù)已廣泛覆蓋營銷、娛樂、教育、文化等各個(gè)領(lǐng)域。

　　不得不說，“小靈”在晚會(huì)上機(jī)智又專業(yè)的首秀可謂圈粉無數(shù)。而這一切，都離不開百度大腦的多項(xiàng)AI技術(shù)的強(qiáng)大支撐。截至目前，百度大腦AI開放平臺(tái)開放了171項(xiàng)技術(shù)能力，涉及智能城市、智慧教育、無人駕駛等眾多領(lǐng)域。

　　說到AI開放平臺(tái)，自然少不了騰訊。近日，2019“AI Everything Summit”峰會(huì)在迪拜國際貿(mào)易中心召開，騰訊集團(tuán)高級(jí)執(zhí)行副總裁劉勝義代表騰訊出席峰會(huì)并發(fā)表主題演講，提出“AI向善”的發(fā)展觀，他指出，在人工智能的時(shí)代，“人”更為重要，“AI向善”將幫助人類提升生活品質(zhì)，為社會(huì)發(fā)展創(chuàng)造新的可能。騰訊持續(xù)探索將人工智能技術(shù)應(yīng)用于尋回走失人員，打造“會(huì)尋人的AI”；在醫(yī)療健康領(lǐng)域，騰訊致力于打造“會(huì)救命的AI”；并且投身于“AI＋農(nóng)業(yè)”的應(yīng)用探索，在食物、能源和水資源等問題上提供創(chuàng)新解決思路。

　　不管應(yīng)用的領(lǐng)域如何，各家企業(yè)都是以“人”為出發(fā)點(diǎn)，從自身的基因出發(fā)尋找合適的切入點(diǎn)，利用AI幫助人類提升生活品質(zhì)，提出行業(yè)解決方案。相信百度和騰訊也會(huì)大膽嘗試，探索更多可能。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

百度“小灵”首秀，AI为何能赚足眼球？

日期： 2019-05-26

相關(guān)內(nèi)容

　　百度“小灵”首秀，AI为何能赚足眼球？