我們對(duì)于AI應(yīng)用的追逐過程如同跨欄,此時(shí)此刻回頭看看,會(huì)發(fā)現(xiàn)“計(jì)算”、“感知”和“決策”這些橫欄,都已經(jīng)在我們身后。如今我們已經(jīng)可以熟練的用語音識(shí)別和圖像識(shí)別來感知信息,再通過機(jī)器學(xué)習(xí)對(duì)海量數(shù)據(jù)的處理來給出結(jié)論。
如果問下一道橫在我們面前有待跨越的橫欄是什么,想必就是意味著“溝通”的智能對(duì)話技術(shù)了。
橫欄在前:
智能對(duì)話技術(shù)跨越的前一秒
建立在語音識(shí)別和語音生成等的NLP技術(shù)上,人機(jī)對(duì)話之間的簡(jiǎn)單對(duì)話已經(jīng)非常普及,像是通過語音喚醒某一項(xiàng)設(shè)備或功能,或是和智能助手進(jìn)行一些單輪問詢。但想要系統(tǒng)化地普及智能對(duì)話技術(shù),實(shí)現(xiàn)人機(jī)之間流暢的理解和多輪對(duì)話,恐怕還有著不少限制。而這種限制,已經(jīng)到了亟待跨越的時(shí)候。
第一, 缺乏靈活的自然語言交互對(duì)話,我們?cè)谶M(jìn)行人機(jī)操作時(shí)依然需要依賴按鍵、屏幕等等設(shè)備,對(duì)于AI技術(shù)的應(yīng)用場(chǎng)景有著很多桎梏。
第二, 在無法進(jìn)行智能對(duì)話的前提之下,很多需要頻繁溝通的工作,依然無法被AI代勞,即使AI已經(jīng)遠(yuǎn)超人類的記憶存儲(chǔ)、計(jì)算決策和感知能力。
舉例來說,在車載、智能音箱、客服和機(jī)器人這四大領(lǐng)域中,智能對(duì)話技術(shù)應(yīng)用的便利與否,就與其體驗(yàn)息息相關(guān)。在車載場(chǎng)景中,人們無暇用手與眼與AI進(jìn)行交互,必然要依賴靈活精準(zhǔn)的對(duì)話系統(tǒng)。至于智能音箱這類硬件,智能對(duì)話不僅限制其產(chǎn)品形態(tài),也會(huì)影響其服務(wù)能力。智能客服與機(jī)器人更不必說,對(duì)于這種以交互為主的產(chǎn)品,能否擁有自然的智能對(duì)話技術(shù),實(shí)則是根深立命之本。
從市場(chǎng)表現(xiàn)上,我們也能發(fā)現(xiàn)智能對(duì)話正在進(jìn)入工業(yè)級(jí)應(yīng)用爆發(fā)的潛伏期。
目前來說,一項(xiàng)技術(shù)爆發(fā)所需要的四個(gè)因素:技術(shù)高度、生態(tài)廣度、用戶取向和企業(yè)需求,在智能對(duì)話領(lǐng)域已經(jīng)盡數(shù)鋪墊完成。
像自然語言處理、語音技術(shù)以及知識(shí)圖譜等技術(shù)已經(jīng)儲(chǔ)備完善。數(shù)據(jù)顯示,在行業(yè)應(yīng)用中38%的企業(yè)已正在應(yīng)用基于智能對(duì)話的系統(tǒng)、麥克風(fēng)陣列等上下游硬件解決方案,也在智能硬件市場(chǎng)的成長(zhǎng)中達(dá)到一定積累,行業(yè)生態(tài)覆蓋正在加速。數(shù)據(jù)顯示,2019年Q1中國(guó)智能音箱銷量同比增長(zhǎng)9倍,移動(dòng)終端、車載系統(tǒng)、智能硬件等產(chǎn)品中引入對(duì)話交互的現(xiàn)象也日益普及,毫無疑問,用戶無比渴望更便利的交互方式。最后,在人力成本日益提高時(shí),企業(yè)對(duì)于智能對(duì)話的需求也越來越旺盛,據(jù)與IDC聯(lián)合調(diào)研,有83.3%企業(yè)認(rèn)為智能對(duì)話能有效降低運(yùn)營(yíng)成本。
在今天,百度舉辦了百度大腦智能對(duì)話引擎及產(chǎn)品發(fā)布會(huì),宣布了百度大腦智能對(duì)話定制平臺(tái)UNIT3.0的全新升級(jí),并展示了智能對(duì)話生態(tài)全景。
就此,我們或許可以確定,人類終于向“溝通”這一AI應(yīng)用的橫欄發(fā)起了跨越?jīng)_刺。
復(fù)合型技術(shù)的迷墻
如果將百度大腦看做智能對(duì)話技術(shù)應(yīng)用的第一個(gè)跨越者,我們也可以從中倒推出這項(xiàng)技術(shù)應(yīng)用的難點(diǎn)在哪里。
一般來說,某一項(xiàng)技術(shù)工業(yè)級(jí)應(yīng)用的突破要取決于成本效率比、人才儲(chǔ)備、配套服務(wù)和概念認(rèn)知之上。
智能對(duì)話的特殊之處在于,這項(xiàng)技術(shù)的復(fù)合性極強(qiáng),包含了語音識(shí)別、語音生成、語音語義一體化、知識(shí)圖譜構(gòu)建等等一系列技術(shù)。這就意味著這項(xiàng)技術(shù)的成本必然相對(duì)偏高、人才儲(chǔ)備也多半集中在技術(shù)企業(yè)和科技巨頭之中。
而智能對(duì)話技術(shù)所應(yīng)用的場(chǎng)景又相對(duì)復(fù)雜,交互本身無處不在,智能對(duì)話技術(shù)既可以向智能客服這里軟件服務(wù)領(lǐng)域輸出,又可以投入于智能耳機(jī)、智能音箱這類硬件領(lǐng)域。更有很多全新的應(yīng)用空間亟待開發(fā)。配套服務(wù)的普及,一定是一條相對(duì)艱難的道路。
綜合下來,會(huì)導(dǎo)致智能對(duì)話技術(shù)距離應(yīng)用場(chǎng)景間隔了一道迷墻,注定了很多企業(yè)對(duì)這項(xiàng)技術(shù)的認(rèn)知理解有所偏差,認(rèn)為這項(xiàng)技術(shù)還并不適合自己的企業(yè)應(yīng)用。
這就是為什么,率先動(dòng)身跨越橫欄的人,會(huì)是百度。
發(fā)起沖刺:
UNIT 3.0和語音技術(shù)平臺(tái)正在蓄力
在百度大腦的智能對(duì)話生態(tài)中,為整個(gè)產(chǎn)業(yè)開放了兩個(gè)重要產(chǎn)品平臺(tái)。
第一是為開發(fā)者提供專業(yè)對(duì)話系統(tǒng)定制技術(shù)的UNIT 3.0。
基于百度多年積累的自然語言處理、知識(shí)圖譜和語音等對(duì)話相關(guān)的AI技術(shù),百度大腦推出的UNIT3.0版本,在搭建技能、構(gòu)建知識(shí)和整合技能與知識(shí)三方面實(shí)現(xiàn)全面升級(jí),其中為開發(fā)者提供了很多預(yù)置能力,例如有關(guān)天氣、閑聊、定會(huì)議室的對(duì)話技能,還有大幅提升樣本生產(chǎn)和標(biāo)注效率的DataKit和一系列知識(shí)庫。
建立在這種模塊化的組件模式上,開發(fā)者定制對(duì)話系統(tǒng)就會(huì)變得像拼樂高一樣簡(jiǎn)單,而非是過去那樣,在一團(tuán)雜亂的毛線中尋找線頭。如此以來,將極大地降低開發(fā)成本和時(shí)間成本,極大地提升效率與性價(jià)比。
第二個(gè)產(chǎn)品平臺(tái),是包含了領(lǐng)域語音方案和語音自訓(xùn)練平臺(tái)的語音技術(shù)平臺(tái)。
相比更傾向于賦能開發(fā)者的UNIT 3.0,語音技術(shù)平臺(tái)則進(jìn)一步為企業(yè)客戶提供了更易上手的工具。
在領(lǐng)域語音方案中,我們可以看到百度大腦推出了他們擅長(zhǎng)的端到端一體化解決方案。這次發(fā)布會(huì)中所展示的呼叫中心語音解決方案,就是一個(gè)很好的案例,通過針對(duì)于呼叫中心場(chǎng)景優(yōu)化過專屬語音識(shí)別模型,結(jié)合呼叫中心場(chǎng)景專屬8K音庫,可以在識(shí)別和生成兩端進(jìn)行優(yōu)化。對(duì)于那些適用于呼叫中心場(chǎng)景的企業(yè)用戶來說,其便利程度接近于即拿即用。
語音自訓(xùn)練平臺(tái),則和EasyDL等自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)類似,通過從基礎(chǔ)語音模型到行業(yè)語音模型再到個(gè)性化語音模型的層層訓(xùn)練,最終提升針對(duì)于場(chǎng)景業(yè)務(wù)的語音識(shí)別率。而這一整個(gè)過程都是自助式的,不需要代碼基礎(chǔ)。這也自然解決了企業(yè)人才匱乏的致命問題。
這兩項(xiàng)產(chǎn)品如同百度大腦智能對(duì)話生態(tài)的左右腿,甩掉了成本、效率和人才的桎梏,直接向智能對(duì)話的工業(yè)級(jí)應(yīng)用發(fā)起沖刺。