智能語音交互對人們生活的影響正在潛移默化地發(fā)生。以前,人們還習(xí)慣于通過鍵盤和觸控屏操控智能設(shè)備,而三到五年內(nèi),科學(xué)家認為人們或許可以隨時給身邊智能設(shè)備、機器人下達指令,幫助訂餐、訂票,乃至端茶遞水。
過去,機器對語音識別度不高,對自然語言的語義更難以理解,阻礙了語音交互的應(yīng)用。
但僅僅在一兩年內(nèi),隨著降噪技術(shù)、方言識別、“雙工多輪交互”技術(shù)、機器學(xué)習(xí)技術(shù)的發(fā)展、對語音的準確識別,乃至對語義的準確理解,讓機器準確理解并執(zhí)行人類指令成為可能。
“以語音和語言為入口的認知革命,將推動人工智能夢想成真。這是一條人工智能走認知計算的必由之路?!庇煽拼笥嶏w研發(fā)的最新技術(shù),實時文字同傳了科大訊飛董事長劉慶峰的演講。
“(原來)我問一次北京明天天氣,然后可以再問上海明天天氣。而現(xiàn)在我可以問北京明天天氣,然后直接問‘上海的呢?’,它馬上就知道上下文相關(guān)?!眲c峰說。
同時,在機器回答問題時,人類今后也可以隨時打斷,插入新的指令和話題。
方言、環(huán)境噪音,都可能影響語音識別準確度,而劉慶峰表示,最新的科技,結(jié)合了方言、降噪、“雙工多輪”等技術(shù),2015年將語音識別準確度由40%已提升至90%。
讓機器執(zhí)行人類語音指令,識別是首要前提,但接下來另一個重要課題是如何讓機器理解自然語言語義,而這也涉及更深層次“人工智能”。
過去60年中,人工智能掀起過兩波浪潮,從證明數(shù)學(xué)原理,到大規(guī)模神經(jīng)網(wǎng)絡(luò)出現(xiàn)。直到2006年,機器“深度學(xué)習(xí)”正式提出,并被證明可用于大規(guī)模神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練,海量的數(shù)據(jù)給予機器學(xué)習(xí)資源,卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)技術(shù),在語音交互方面逐步獲得應(yīng)用。