語(yǔ)音是人類最自然而直接的交互方式,如今恰是從“自然”向“智能”時(shí)代跨越的過(guò)渡期。在智能語(yǔ)音時(shí)代,用戶只需用說(shuō)話的方式給服務(wù)終端發(fā)布命令,就能得到相應(yīng)的服務(wù)。作為人工智能產(chǎn)業(yè)鏈上的關(guān)鍵一環(huán),智能語(yǔ)音已在Siri等數(shù)字語(yǔ)音助手、智能家居、車載、可穿戴設(shè)備等域中開始落地。
未來(lái),智能語(yǔ)音必將支持多用戶體驗(yàn)。比如,不同家庭成員將擁有不同的操作權(quán)限,經(jīng)認(rèn)證的汽車擁有者借助語(yǔ)音指令,通過(guò)智能手表預(yù)啟動(dòng)汽車等。
除了語(yǔ)音識(shí)別,CEVA公司戰(zhàn)略營(yíng)銷總監(jiān)Moshe Sheier認(rèn)為語(yǔ)音的魅力不止于此:“我們認(rèn)為語(yǔ)音識(shí)別還將夠勝任更多工作,例如,未來(lái)語(yǔ)音識(shí)別系統(tǒng)將能夠通過(guò)聲音來(lái)辨認(rèn)人(如果在系統(tǒng)中預(yù)先注冊(cè)),了解人們的情緒狀態(tài),而且無(wú)論不受周圍環(huán)境影響而暢順工作。這樣語(yǔ)音識(shí)別系統(tǒng)才更人性化,能基于所處位置、喜好以及過(guò)往活動(dòng)等來(lái)進(jìn)判斷操作。這需要對(duì)語(yǔ)音識(shí)別進(jìn)行深度擴(kuò)展——加入‘聲音感測(cè)’,除了人聲信息還可識(shí)別其它聲音事件,比如家里的門鈴聲和玻璃破碎的聲音,或者道路上緊急車輛的警笛。語(yǔ)音識(shí)別和聲音感測(cè)的可滲透到生活的每個(gè)方面,手機(jī)和可穿戴產(chǎn)品的語(yǔ)音激活、智能家居控制、智慧城市安保(聲音事件感測(cè)),汽車、商業(yè)和財(cái)務(wù)等領(lǐng)域?!?/p>
CEVA公司戰(zhàn)略營(yíng)銷總監(jiān)Moshe Sheier
“軟硬”兼施的CEVA語(yǔ)音平臺(tái) 怎樣的平臺(tái)才能稱之為適用于語(yǔ)音應(yīng)用的平臺(tái)呢?
回答這個(gè)問(wèn)題,首先需要對(duì)應(yīng)用場(chǎng)景進(jìn)行分類,是電池驅(qū)動(dòng)還是插座式電源供電、是近場(chǎng)交互操作還是遠(yuǎn)場(chǎng)識(shí)別。應(yīng)對(duì)以上不同場(chǎng)景,便需要兩種不同的解決方案:
第一種是具有超低功耗的近距離交互,使用1至3個(gè)麥克風(fēng)的始終在線語(yǔ)音助手;
第二種是支持4至8個(gè)麥克風(fēng)的高性能遠(yuǎn)距離應(yīng)用,可使用多種前端技術(shù),比如波束成形和多通道回聲消除器。
基于此,CEVA提供CEVA-TeakLite-4 超低功耗 DSP平臺(tái)和CEVA-X2高性能DSP平臺(tái)解決方案。除了用于語(yǔ)音識(shí)別的專用DSP內(nèi)核,還提供應(yīng)用軟件。Moshe Sheier表示,以上兩款方案均有實(shí)際應(yīng)用案例,并包含多個(gè)CEVA及合作伙伴的軟件包,可實(shí)現(xiàn)任何風(fēng)格的語(yǔ)音助手應(yīng)用。
如何應(yīng)對(duì)智能語(yǔ)音痛點(diǎn) 盡管技術(shù)先行,但智能語(yǔ)音還存在諸多的挑戰(zhàn),最大的挑戰(zhàn)便是環(huán)境噪聲,而往往是多個(gè)噪聲源錯(cuò)綜交織——其他人的交談、音樂(lè)播放、空調(diào)器和其它機(jī)器噪聲、交通噪聲等等。因而,獲得良好的信噪比尤為關(guān)鍵,通過(guò)生成清晰的聲音信號(hào)來(lái)作為語(yǔ)音識(shí)別引擎。
應(yīng)對(duì)這些挑戰(zhàn)就需要通過(guò)降噪、麥克風(fēng)陣列波束成形、揚(yáng)聲器跟蹤、回聲消除器、始終聆聽喚醒詞和嵌入式(非基于云端)語(yǔ)音指令等。
Moshe Sheier表示:“CEVA已向全球多個(gè)地區(qū)的客戶交付超過(guò)60億個(gè)音頻/語(yǔ)音芯片,可實(shí)現(xiàn)麥克風(fēng)拾音、降噪、回聲消除和嵌入式語(yǔ)音指令,并將清晰的語(yǔ)音數(shù)據(jù)編碼發(fā)送到云端。我們擁有豐富經(jīng)驗(yàn)應(yīng)對(duì)語(yǔ)音交互的變革?!?/p>