123,123

下一波趋势声音人机交互技术

日期： 2016-02-05

關(guān)鍵詞： 信息时代电视技术开发语音人机交互

　　如果你同時(shí)保留著看電視和聽廣播這兩個(gè)習(xí)慣——或者，看視頻網(wǎng)站的同時(shí)會去找些播客節(jié)目聽聽，那么你一定會注意到一個(gè)顯著的區(qū)別：視頻節(jié)目的豐富程度和制作上的復(fù)雜度遠(yuǎn)高于音頻節(jié)目。例如，《新聞聯(lián)播》的片頭20多年換了四五次，體現(xiàn)了電視技術(shù)的最新進(jìn)步，但片頭音樂一直不變，人們也能接受。電視節(jié)目的攝影棚幾年就得來一次大翻新，但現(xiàn)在的廣播電臺依然可以使用十幾年前的音頻制作系統(tǒng)來播出節(jié)目，直播間里的時(shí)光仿佛停滯一般。

　　人類在同一時(shí)刻用眼睛可以接收的信息量遠(yuǎn)高于用耳朵能接收到的，視覺可以判別空間位置、形狀和顏色疊加起來的豐富信息，比聽覺高了不止一個(gè)維度。在看到人說話的時(shí)候，我們接收到的不只是話語內(nèi)容，還包括人的面部特征和表情的細(xì)微變動(dòng)，這都對氛圍和情緒有著潛移默化的影響。相應(yīng)的，聽覺接收到的話語內(nèi)容可以用手語或者字幕替代，但視覺附加的更多信息卻難以轉(zhuǎn)化回音頻。

　　歷史上，圖書和報(bào)紙已經(jīng)給了人們在視覺信息接收方面的訓(xùn)練，人們將排版經(jīng)驗(yàn)延伸到電影和電視上。盡管留聲機(jī)和電影技術(shù)幾乎處于同一時(shí)代，但人們卻寧愿忍受很多年沒有同期聲的無聲電影時(shí)代，寧愿用隨便什么音樂放一下做背景了事。可見，人們習(xí)慣上對圖像比對聲音重視得多。

32(1).jpg

　　同樣，信息時(shí)代的到來也毫不例外的優(yōu)先偏愛圖像。90年代電腦同時(shí)具備獨(dú)立的顯卡和聲卡，技術(shù)進(jìn)步之后，人們對聲卡抱著無所謂的態(tài)度，卻追求獨(dú)立顯卡和屏幕的畫質(zhì)，以至于追求手機(jī)攝像頭的精度。在交互方面，大家非常注重GUI(圖形用戶界面)，而對于聲音的設(shè)計(jì)處理一般比較馬虎，還停留在很多年前的水平。

　　隨著iPhone帶來的趨勢，一塊巨大的觸屏成為人們交互的全部載體，跑在上面的應(yīng)用也隨著一股奇怪的扁平化風(fēng)潮而變得越來越樣式單一，設(shè)計(jì)師為了與眾不同又好用的界面而絞盡腦汁。對于音頻而言，它終于迎來了走出冷宮的機(jī)會。人機(jī)交互的下一波趨勢，將很可能在聲音——而不是圖像——方面迎來突破。

　　聲音不重要，還是人們沒發(fā)現(xiàn)它的重要？

　　“在汽車出現(xiàn)之前，人們都以為自己想要一臺更快的馬車。”這句話大家也許都很熟悉。在iOS 7和微軟Metro界面出現(xiàn)之后，一夜之間各種UI設(shè)計(jì)都趨向于扁平，而流行多年的擬物化設(shè)計(jì)很快就退潮了。這表明，人們的審美態(tài)度是可以因?yàn)橥饨绲膹?qiáng)力驅(qū)動(dòng)而受到很大的改變的，并不是一成不變。所以對音頻交互也是如此：并不是說聲音相對于圖像而言不重要，而是需求沒有得到很好的引導(dǎo)。

　　聲音有什么好處？它是否有足夠潛力成為不可替代的載體呢(為什么我們獲得的是相反的信號，比如交通廣播電臺即將被打車軟件的搶單聲埋葬)？

　　首先，習(xí)慣聲音交互可以讓我們的感覺器官均衡利用，換句話說就是保護(hù)眼睛。長期使用手機(jī)，比如在地鐵盯著屏幕或者睡覺之前刷屏，會出現(xiàn)很多健康問題，其實(shí)不僅限于眼睛，手持閱讀介質(zhì)的姿勢不同，全身都可能受影響。

　　而且，作為必須全神貫注進(jìn)行的活動(dòng)，閱讀(包括觀看視頻)需要完全沉浸進(jìn)去，和外界隔離，引發(fā)的心理問題也不容忽視。不管是閱讀長文還是碎片化消息，眼睛接受的信息量通常過大，人們接受了過量的信息，以至于形成信息過載而不自覺。

　　使用聲音可以讓人們強(qiáng)制減少信息攝入量，并更自如的利用碎片時(shí)間。對孩子而言，聲音(不使用耳機(jī))也是一種親切自然的交互方式，有助于讓孩子早期就接觸電腦，而不用擔(dān)心用眼，孤獨(dú)等副作用。

　　此外，隨著我們使用智能設(shè)備的“戶外場景”增多，就像這個(gè)年頭智能手表終于迎來了春天一樣，為短信息和免提式交互量身定制的聲音也會派上更大用場。戶外場景其實(shí)主要就是開車或者是提著東西走路。在這種情況下，顯然眼睛就只是拿來看路才更合適。

　　一個(gè)例子是，交通電臺提交路況信息，從原來的短信平臺改為用微信公眾號發(fā)送語音，電臺會直接播出上傳的語音。這樣，司機(jī)可以不停車，用藍(lán)牙耳機(jī)播報(bào)路況，讓整個(gè)交流過程更像是真正的無線電臺一樣。

　　最后，聲音可以極大的幫助視障人士走入信息化。如果不是親身接觸，你根本無法想象視覺在如今的交互中占有如何舉足輕重的地位。完全不用眼睛的網(wǎng)頁瀏覽，必須忍受讀屏軟件以飛快到基本聽不清的速度給你播報(bào)每一個(gè)文字和圖片信息，而很多圖片都沒有妥當(dāng)?shù)奈谋緲?biāo)簽，在沒有充分無障礙化的頁面，比如淘寶店鋪，使用者就會完全陷入迷茫。

　　在幫助文本信息轉(zhuǎn)語音，方便視障人士方面，騰訊可能是國內(nèi)公司中嘗試時(shí)間最長的公司，QQ2010正式支持讀屏軟件并延續(xù)至今，其他應(yīng)用如QQ音樂也增加了支持。隨著語音命令可用范圍進(jìn)一步擴(kuò)大，電腦之門將會更廣闊地對盲人朋友敞開。

　　讓基于聲音的人機(jī)交互變得更自然

　　擬人的聲音交互現(xiàn)在來到一個(gè)艱難的瓶頸期。著名的“恐怖谷理論”認(rèn)為，當(dāng)機(jī)器人與人類相像超過一定程度的時(shí)候，哪怕與人類有一點(diǎn)點(diǎn)的差別，都會顯得非常顯眼刺目，讓整個(gè)機(jī)器人顯得非常僵硬恐怖，讓人有面對行尸走肉的感覺。

　　在廠商跟風(fēng)推進(jìn)語音助手成為所有手機(jī)、手表的標(biāo)準(zhǔn)配置之后，它正逐步降低人們的心理障礙，培養(yǎng)使用習(xí)慣。如上所述，對待機(jī)器我們很自然的操作方式是“動(dòng)手不動(dòng)口”，對著機(jī)器說話會感覺很奇怪。但是調(diào)戲Siri或者小娜，已經(jīng)一定程度上在幫我們克服這種障礙。

　　這就給語音助手進(jìn)一步提升智能程度贏得了寶貴的時(shí)間。等到一個(gè)真正如人類一般智能的聲音出現(xiàn)時(shí)，人們對于對著電腦傾訴，侃侃而談，就不會太排斥，電影《Her》當(dāng)中出現(xiàn)的戀上機(jī)器聲音的情節(jié)，也會獲得更多用戶的共鳴。

　　如果一個(gè)虛擬的人類聲音始終會讓人心生抗拒，那最理想的辦法是機(jī)器直接執(zhí)行人類短促簡單的語音命令。比如說你走到家門說開門，那么就只是把門打開，不會有什么多余的回應(yīng)說“好的，我這就把門打開”。

　　另一種可行的辦法是讓機(jī)器用“顯然不是普通人類”的聲音與人交互，比如現(xiàn)在還有點(diǎn)“單字蹦”的Siri和谷歌娘，或者故意用萌化的聲音說“主人回家了喵”，類似這樣的方法其實(shí)就是在智能不到位的時(shí)候用裝傻賣萌來補(bǔ)充。既然不像真人，也就沒有必要感到不舒服了。

　　技術(shù)進(jìn)步和概念創(chuàng)新可以互相驅(qū)動(dòng)

　　當(dāng)我們站在現(xiàn)在回顧iPhone出現(xiàn)之前的手機(jī)市場，我們會發(fā)現(xiàn)，現(xiàn)在的應(yīng)用形態(tài)有很多是當(dāng)年不可想象的。這當(dāng)中很多更新都基于硬件交互方式的改進(jìn)，比如多點(diǎn)觸摸，GPS、NFC/RFID和各種感應(yīng)器的協(xié)同作用。所以我們有同樣的信心認(rèn)為，只要用心去開發(fā)語音的交互功能，就會出現(xiàn)更多我們現(xiàn)在無法想象的新的交互方式。

　　有時(shí)候，當(dāng)新的交互到來的時(shí)候，我們才會驚奇的發(fā)現(xiàn)為其鋪墊的技術(shù)因素已經(jīng)成熟；而只要出現(xiàn)一個(gè)合理的產(chǎn)品，它起到的標(biāo)志性作用就會引導(dǎo)業(yè)界進(jìn)行自主革新，提升性能和降低成本。

　　在聲音交互方面，Siri就是一個(gè)很好的例子。它需要輸入和輸出技術(shù)——語音識別和文字轉(zhuǎn)語音共同配合。而Siri出現(xiàn)的時(shí)候，這兩種技術(shù)都已經(jīng)到了接近能用的程度——就中文而言，語音播報(bào)不再那么“單字蹦”了，而多種第三方語音引擎的識別率更可以在安靜環(huán)境下達(dá)到90%以上，并順理成章成為眾多山寨Siri的選擇。它的結(jié)果就是廠商跟風(fēng)推進(jìn)語音助手成為所有手機(jī)、手表的標(biāo)準(zhǔn)配置。

　　不管是可穿戴設(shè)備，還是普通的電腦，是家庭游戲機(jī)或客廳的機(jī)頂盒，以至于智能家居和汽車，聲音交互都是非常有用的。但是截至目前，人們對于它的探索還是非常被動(dòng)。比如說，只有當(dāng)智能手表在輸入上出現(xiàn)障礙的時(shí)候才想到用語音輸入，而并非主動(dòng)的探索用語音作為屏幕顯示的替代方案。所以，如果進(jìn)一步整合現(xiàn)有技術(shù)，能夠給我們帶來一個(gè)具有示范作用的應(yīng)用，就會顯著加速業(yè)界對聲音交互場景的研究。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

下一波趋势 声音人机交互技术

日期： 2016-02-05

相關(guān)內(nèi)容

下一波趋势声音人机交互技术