寶馬在設(shè)計(jì)iDrive (智能駕駛控制系統(tǒng))時(shí),始終堅(jiān)持的一個(gè)原則是“不分心”。2011年,當(dāng)時(shí)的寶馬人機(jī)界面負(fù)責(zé)人Bernarhd Neidermaier在一次交流中提到,設(shè)計(jì)師們心里其實(shí)有一條水平參考線——顯示相關(guān)的都在線上,控制相關(guān)的在線下。他們努力將兩者剝離,目的是盡可能地減少低頭看屏分散注意力的時(shí)間,并且保證駕駛員用按鈕控制時(shí),不用傾斜身體或者抬起手臂。
這種把顯示與控制剝離的設(shè)計(jì),一直被沿用了下來(lái)。
另一種讓駕駛員避免分心的辦法,就是在車(chē)內(nèi)引入語(yǔ)音交互。畢竟語(yǔ)言最接近人類(lèi)的交流習(xí)慣,如果和你說(shuō)話的系統(tǒng)足夠聰明,一句指令就能清楚地指向一個(gè)功能,反復(fù)查看屏幕和手動(dòng)操作的時(shí)間,都可以節(jié)省下來(lái)。
2016年CES(消費(fèi)電子展)時(shí),寶馬帶來(lái)了為中國(guó)用戶(hù)開(kāi)發(fā)的自然語(yǔ)音識(shí)別系統(tǒng)(NLU,Natural Language Understanding)。這項(xiàng)技術(shù)最先在3系和7系上應(yīng)用,之后又延伸到了品牌旗下的更多車(chē)型。過(guò)去幾天,車(chē)云菌體驗(yàn)了一輛寶馬320i的自然語(yǔ)音識(shí)別,對(duì)這項(xiàng)功能的表現(xiàn)也有了更加直觀的體會(huì),在這套語(yǔ)音系統(tǒng)常規(guī)表現(xiàn)之外,還給它布置了幾道小有挑戰(zhàn)的“附加題”,大家也可以看看這套系統(tǒng)的表現(xiàn)。
先來(lái)認(rèn)識(shí)一下寶馬的這套自然語(yǔ)音系統(tǒng)
自然語(yǔ)音技術(shù)不是一蹴而就,寶馬引入車(chē)載語(yǔ)音技術(shù)已經(jīng)有很多年了。因?yàn)檎Z(yǔ)音識(shí)別本身就是iDrive系統(tǒng)的一部分,所以語(yǔ)音控制體驗(yàn)和整個(gè)車(chē)載娛樂(lè)信息系統(tǒng)以及一些車(chē)輛輔助(比如空調(diào)等)緊緊聯(lián)系在了一起。
據(jù)資料顯示,第一代iDrive就可以用語(yǔ)音來(lái)控制導(dǎo)航和音樂(lè),隨后寶馬又分別在2007年加入了語(yǔ)音撥號(hào),2011年增加了文字轉(zhuǎn)語(yǔ)音讀電郵、短信等功能。
這個(gè)階段,寶馬使用的還是“條目式語(yǔ)音”,控制模式很像用鼠標(biāo)去逐個(gè)點(diǎn)開(kāi)系統(tǒng)頁(yè)面,而且每次該說(shuō)什么都要嚴(yán)格遵守規(guī)定。假如你要聽(tīng)手機(jī)上ColdPlay演唱的Viva la Vida,那就請(qǐng)依次說(shuō)出“USB-按藝術(shù)家-ColdPlay-按歌名-Viva la Vida”吧。
2012年,語(yǔ)音功能迎來(lái)了一次大更新。寶馬宣布開(kāi)始使用Nuance的Dragon Drive(聲龍駕駛)。這是一套“本地+云端”的混合系統(tǒng)。因?yàn)楂@得了云端強(qiáng)大的運(yùn)算能力,語(yǔ)音交互不再受限于本地的存儲(chǔ)和算力,語(yǔ)音識(shí)別率和速度都有了顯著提升。
當(dāng)時(shí)視頻展示的語(yǔ)音交互已經(jīng)開(kāi)始簡(jiǎn)化,雖然依舊需要先說(shuō)出“導(dǎo)航”這個(gè)命令大類(lèi),但用戶(hù)已經(jīng)可以在地址頁(yè)面按要求,一次性輸入完整的目的地地址。
2018款寶馬320i的iDrive系統(tǒng),用戶(hù)可勾選是否通過(guò)服務(wù)器進(jìn)行語(yǔ)音識(shí)別,來(lái)提升語(yǔ)音交互的體驗(yàn)
更重要的是,云服務(wù)讓語(yǔ)義理解變得更加容易。在2016年寶馬揭曉最新一代自然語(yǔ)音系統(tǒng)時(shí),交互已經(jīng)在努力接近人與人之間的對(duì)話。導(dǎo)航時(shí),系統(tǒng)已經(jīng)可以根據(jù)“附近的加油站”這類(lèi)模糊指令,給出一個(gè)非常接近答案的地址列表。
而且交互邏輯中,完成某個(gè)任務(wù)期間的多輪語(yǔ)音溝通不用多次喚醒。只要界面左上角的語(yǔ)音標(biāo)識(shí)一直處于點(diǎn)亮狀態(tài),你就可以一直順著引導(dǎo),把任務(wù)完整布置給系統(tǒng)。因此在用戶(hù)端體驗(yàn)上,寶馬早期語(yǔ)音交互的那種機(jī)械感已經(jīng)被大大稀釋。
2016年發(fā)布的寶馬自然語(yǔ)音識(shí)別通過(guò)方向盤(pán)上的語(yǔ)音按鈕喚醒,可以用于導(dǎo)航,搜索POI,打開(kāi)音樂(lè)廣播,撥打電話,發(fā)送信息,查詢(xún)車(chē)輛和生活信息等。在每個(gè)大類(lèi)中,語(yǔ)音還可以控制更加細(xì)分的小功能。
上面這個(gè)視頻可以讓你直觀感受一下整個(gè)語(yǔ)音交互過(guò)程,系統(tǒng)對(duì)答和提醒的女聲語(yǔ)音聽(tīng)起來(lái)較為舒心,理解任務(wù)的成功率也比較高。在連接服務(wù)器的情況下,語(yǔ)音識(shí)別和語(yǔ)義理解的延遲可接受,系統(tǒng)思考的時(shí)間幾乎不易覺(jué)察。
4道語(yǔ)音考試“附加題”
除了常規(guī)體驗(yàn)之外,我們?yōu)檫@套語(yǔ)音系統(tǒng)準(zhǔn)備了幾道附加題,更像是有趣的極限挑戰(zhàn),可以讓大家對(duì)系統(tǒng)有更深入的發(fā)現(xiàn)。
1. 打斷和修改
在熟悉和機(jī)器交談后,系統(tǒng)的語(yǔ)音回復(fù)顯得過(guò)于冗長(zhǎng)。你會(huì)在機(jī)器說(shuō)完所有內(nèi)容之前,就下意識(shí)地打斷它。寶馬的自然語(yǔ)音識(shí)別在一些環(huán)節(jié)支持打斷,可以兼顧需要解說(shuō)和簡(jiǎn)化溝通的需要。
同時(shí)在語(yǔ)音識(shí)別、語(yǔ)義理解難免出錯(cuò)的時(shí)候,手動(dòng)修改錯(cuò)誤結(jié)果也是一個(gè)比較苦惱的問(wèn)題。刪除和重輸入過(guò)程十分繁瑣,使用寶馬自然語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音修改,可以提高溝通效率。
在撥打電話這個(gè)任務(wù)中,我們隨機(jī)測(cè)試了連續(xù)打斷和修改方面的表現(xiàn),測(cè)試時(shí)是車(chē)窗關(guān)閉的駐車(chē)狀態(tài),同時(shí)云端識(shí)別開(kāi)啟。
2. 強(qiáng)噪音
對(duì)于車(chē)載環(huán)境,降噪是一項(xiàng)很重要的命題。因?yàn)樾熊?chē)時(shí)特有的發(fā)動(dòng)機(jī)聲,開(kāi)窗時(shí)的風(fēng)噪,車(chē)內(nèi)其他人的說(shuō)話聲,都會(huì)干擾最終的語(yǔ)音交互效果。
常規(guī)測(cè)試車(chē)載語(yǔ)音系統(tǒng)的降噪能力,是在高速行駛時(shí)開(kāi)窗測(cè)試。我們選擇了更苛刻的條件——在駐車(chē)狀態(tài)空調(diào)風(fēng)力全開(kāi)的時(shí)候,隨意使用車(chē)載語(yǔ)音功能。因?yàn)榭照{(diào)最大風(fēng)量時(shí)發(fā)出來(lái)的噪聲非常大,而車(chē)機(jī)和空調(diào)出風(fēng)口臨近,會(huì)受到很大的干擾。
下面是一個(gè)一鏡到底的視頻,云端識(shí)別處于開(kāi)啟狀態(tài)。其中,打開(kāi)關(guān)閉空調(diào)、按距離篩選POI結(jié)果是車(chē)載語(yǔ)音原本不支持的功能,返回結(jié)果失敗的原因不是噪音導(dǎo)致??傮w看來(lái),在非常惡劣的環(huán)境下,寶馬這套車(chē)載語(yǔ)音的表現(xiàn)不錯(cuò)。
3. 不連網(wǎng)
這款車(chē)載語(yǔ)音產(chǎn)品是一個(gè)混合導(dǎo)航。目前這套系統(tǒng)的導(dǎo)航POI(興趣點(diǎn))數(shù)據(jù)優(yōu)先從云端獲取。為了避免車(chē)處在隧道、停車(chē)場(chǎng)等信號(hào)不佳區(qū)域?qū)е碌捏w驗(yàn)欠缺,車(chē)輛本地也會(huì)存放一部分導(dǎo)航數(shù)據(jù),但一般而言輸出結(jié)果需要更長(zhǎng)的時(shí)間。
我們關(guān)閉網(wǎng)絡(luò),測(cè)試了非聯(lián)網(wǎng)狀態(tài)POI搜索的表現(xiàn)。結(jié)果發(fā)現(xiàn),本地處理時(shí)間有了明顯增加,系統(tǒng)思考的每個(gè)步驟都在屏幕上展示了出來(lái)。首先非聯(lián)網(wǎng)帶來(lái)的時(shí)延,車(chē)云菌覺(jué)得對(duì)駐車(chē)狀態(tài)的搜索不會(huì)造成太大困擾,但如果在行車(chē)過(guò)程操作,很有可能會(huì)導(dǎo)致錯(cuò)過(guò)路口,路線重新規(guī)劃。對(duì)于把每一步都展示給用戶(hù)的做法,車(chē)云菌認(rèn)為反倒對(duì)用戶(hù)理解系統(tǒng)是一種幫助,畢竟在本地狀態(tài)下,語(yǔ)音識(shí)別過(guò)程的拉長(zhǎng),很容易造成“功能不可用”的誤解。
4. 多意圖指令
單一意圖的語(yǔ)言指令,寶馬的這套系統(tǒng)已經(jīng)有不錯(cuò)的識(shí)別表現(xiàn)。但這并沒(méi)有滿足我們的好奇心。根據(jù)習(xí)慣,我們常常會(huì)使用多意圖的語(yǔ)音指令,比如“提醒我明天下午給車(chē)云菌打電話”,對(duì)系統(tǒng)來(lái)說(shuō),挑戰(zhàn)就是分辨該“打電話給車(chē)云菌”還是“給備忘錄中增加一個(gè)提醒”。
在下面這個(gè)視頻,我們?cè)嚵诉@樣一組指令。通過(guò)不同地名的排列組合,讓系統(tǒng)試著去分辨我們的真實(shí)意圖。對(duì)于這道題,系統(tǒng)沒(méi)能成功給出邏輯上正確的結(jié)果。語(yǔ)義理解是目前語(yǔ)音技術(shù)在重點(diǎn)突破的方向,要讓語(yǔ)音系統(tǒng)真正識(shí)別駕駛員的意圖,還需要更多的數(shù)據(jù)和更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
- 導(dǎo)航到天安門(mén)
- 導(dǎo)航到西單
- 我要去天安門(mén),不要去西單
- 我要去西單,不要去天安門(mén)
- 我不要去天安門(mén),我要去西單
- 我不要去西單,我要去天安門(mén)
- 我不要去天安門(mén),也不要去西單
- 我要去天安門(mén)和西單
小結(jié)
寶馬最早開(kāi)始在量產(chǎn)車(chē)上使用語(yǔ)音交互的車(chē)企之一,并且這項(xiàng)功能已經(jīng)普及到了品牌旗下的眾多車(chē)型。語(yǔ)音技術(shù)的持續(xù)發(fā)展,為駕駛員創(chuàng)造了更智能化,情景化,以及更加主動(dòng)的體驗(yàn)。隨著智能汽車(chē)角色的轉(zhuǎn)變,語(yǔ)音會(huì)發(fā)揮的作用一定會(huì)越來(lái)越大。