百度AI開發(fā)者大會中,百度CTO王海峰博士開場就帶來了一段機械臂倒蓋碗茶的現(xiàn)場演示。
這個機械臂既會茶藝絕活兒,還能說會道——它主要融合了機器人視覺、語音、自然語言處理等多種人工智能技術。此外,王海峰也宣布百度大腦升級至5.0,形成了包括基礎層、感知層、認知層、平臺層和AI安全五大部分的核心架構。
“百度大腦”這個名詞最初是在2014年從李彥宏口中說出的,他當時對外透露說:“百度大腦大約已經(jīng)相當于2~3歲孩子的智力水平?!?016年的百度世界大會上,百度首次向外界全面展示了組成“百度大腦1.0”的全貌。
如今,“百度大腦” 進入5.0階段,成為軟硬件一體的AI大生產(chǎn)平臺,核心算法再獲重大突破,首次公布端到端AI計算架構,并實現(xiàn)了AI計算、計算架構與應用場景的創(chuàng)新融合。
語音識別速度大幅提升,準確率提15%-20%
百度語音技術部高級總監(jiān)高亮,在開發(fā)者大會現(xiàn)場說了一段Rap:Hello Everyone,中英混合說是我們的everyday work,Explore技術的depth和scope是我們的responsibility……這段中英夾雜的話被百度輸入法流暢、精準、及時地識別出來。
這背后是百度大腦流式多級的截斷注意力模型(SMLTA),它能讓語音識別速度大幅提升,準確率提15%-20%,是首個基于流式注意力的語音識別線上服務。
基于語音、視覺技術,自動合成虛擬形象
浦發(fā)銀行的數(shù)字人是怎么“煉”成的?它實際上是結合語音和視覺技術,機器自動合成的虛擬形象。
王海峰介紹,實時合成虛擬形象技術,首先需要對語音信號和視頻信號進行實時識別與理解,再通過唇動生成,以及語音、面部和肢體的合成,實時合成一個虛擬形象。這波操作背后,是百度大腦多項AI技術能力的體現(xiàn)。
視頻語義理解技術實現(xiàn)精準解析
王海峰展示了關于中國民間藝術的音樂紀錄片《大河唱》中的片段,影片中的角色、人物關系、音樂種類、取景地、影片主題等信息,都被精準解析。這背后是基于知識圖譜的視頻語義理解技術。
推出知識增強的語義理解框架ERNIE
百度大腦語音、視覺、語言和知識等核心算法法再度重磅升級,發(fā)布6大技術突破。
包括業(yè)界領先的流式多級的截斷注意力模型(SMLTA)和風格遷移的語音合成技術;知識增強的語義理解框架ERNIE和基于知識圖譜的視頻語義理解技術;業(yè)界首創(chuàng)的高準確、低時延的機器同傳技術。
值得關注的是,在語言方面,百度大腦推出知識增強的語義理解框架——ERNIE,再次全面刷新了中文自然語言處理任務效果,超越谷歌BERT。
繼去年開發(fā)者大會發(fā)布“昆侖”芯片后,今年,王海峰發(fā)布了一款新的芯片——遠場語音交互芯片“鴻鵠”。鴻鵠芯片使用了HiFi4自定義指令集,雙核DSP核心,平均功耗僅100mW。這款芯片是根據(jù)車規(guī)級標準打造,將為車載語音交互、智能家具等場景帶來巨大的便利。
百度飛槳與華為麒麟芯片合作
今年開發(fā)者大會最大的亮點來了。王海峰與華為消費者BG軟件總裁王成錄博士聯(lián)合宣布,百度飛槳與華為麒麟達成深度合作。