或者我們可以把第一次工業(yè)革命看作是人類開始系統(tǒng)的思考人類與機器的交互,那或是人機交互的開端,這也許是從人類不自覺情況下開始的,但是從此之后人機交互的進展就再也沒有停止過。
我們發(fā)現(xiàn),人類和機器的交流,最開始發(fā)生在工廠內(nèi)。改善人機交互體驗的動機是提升工作效率。發(fā)展到如今,人機交互的研究已經(jīng)不單單是為了提升工作效率那么簡單。進入21世紀之后,人機交互的思路發(fā)生了新的改變。隨著技術的進步,各種感應器的出現(xiàn),開始讓讓人機交互進入新的階段。那就是機器可以主動“體會”用戶的意圖了。雖然目前這種體會還非常的簡單,可能只是自動選擇屏幕,或者自動調(diào)節(jié)亮度這樣簡單。但是這是人機交互的一個本質(zhì)性的變化。人和機器的交互,不再是簡單的“你說我聽”。
此外交互方式的變革也是值得我們注意的,當用戶向手機或者計算機發(fā)問的時候,輸入的方式也改變了。鼠標比鍵盤方便,觸控比鼠標方便,語音輸入可以說更加的省時省力。在這一背景下,2015年7月29日,國內(nèi)頂尖智能語音技術公司——思必馳,在深圳舉辦【語聲紀元】新技術發(fā)布會,各路智能硬件大咖齊聚深圳,共迎智能語音交互技術領域的革新一刻,從智能語音技術的角度共同討論人工智能的發(fā)展與未來。
據(jù)思必馳CEO高始興透露,思必馳作為一家領先業(yè)界的智能語音技術公司,是國際上最早提出”交互人工智能“并開始研發(fā)的技術公司。 現(xiàn)在,隨著智能硬件時代的全面到來, “人機交互”的概念也被炒得火熱。在移動互聯(lián)時代,由于交互模態(tài)和交互目標的豐富,用戶對人機交互的自由度和豐富性的需求日益提升,已經(jīng)不滿足于簡單的搜索功能,而是正在逐漸向“任務處理”變遷,思必馳順應趨勢積極開發(fā)優(yōu)勢技術。
現(xiàn)在,移動互聯(lián)網(wǎng)大潮來了,思必馳覺得是個機會,把思必馳幾乎所有的人力、精力和財力向移動互聯(lián)、智能硬件去專注,去投,專注在扎實的語音技術上,希望服務于廣大的移動互聯(lián)和智能硬件的開發(fā)者,做最極致的體驗。而智能家居、可穿戴、車載則是目前思必馳最為關注的三大領域。
思必馳CEO高始興
2015年,物聯(lián)網(wǎng)和智能硬件的大風來了,但是思必馳看到市面上諸多的智能硬件在人機交互方面做得還不夠好,沒達到完美,甚至可以說距離良好的用戶體驗差距還非常大,甚至可以說,我們現(xiàn)在看到市面上的人機語音交互,還非常的基礎。
思必馳聯(lián)合創(chuàng)始人、首席科學家俞凱教授則認為,在智能硬件整個生態(tài)圈里面,交互是重要的一環(huán),而且,我們認為智能硬件需要一顆心,不僅僅是讓每款產(chǎn)品有一個耳朵、嘴巴,還要有大腦,會思考。思必馳當初創(chuàng)業(yè)的夢想就是讓每個設備能有智能語音,自然與人對話起來。讓智能設備有嘴巴、有耳朵、有大腦,這是我們一直以來的夢想和使命。
俞凱教授強調(diào), “所以我希望思必馳能夠一直努力,做好我們的技術,做好我們的方案,做好我們的服務,我們自己跟合作伙伴能夠緊密聯(lián)系起來,一起讓每個智能硬件有極致的交互體驗。”
但是目前語音技術面臨著巨大的挑戰(zhàn)。真正的自由和穩(wěn)定的人機交互系統(tǒng)不僅需要解決語音的“感知/表達”,即傳統(tǒng)的語音識別和合成,更需要解決認知理解和抽象思維的智能。這需要經(jīng)歷兩個階段,一個是傳統(tǒng)語音技術的優(yōu)化,使其更加人性化;二是對話技術的使用,采用認知交互智能提升任務完成的水平和用戶體驗。
思必馳聯(lián)合創(chuàng)始人、首席科學家俞凱教授
此次新技術發(fā)布俞凱教授分享了思必馳最新技術突破,包括遠場及抗噪技術突破、更先進的回聲消除和麥克風陣列算法組合、基于統(tǒng)計的參數(shù)化語音合成方法、多輪交互和根據(jù)上下文的語義解析。并現(xiàn)場演示了“語音輸入板”,贏得滿堂喝彩。
俞凱教授現(xiàn)場演示“語音輸入板”贏得滿堂喝彩
遠場及抗噪技術突破:在國際通用的噪聲標準測試庫上,思必馳的最新結構化抗噪語音識別技術刷新了國際記錄,取得目前世界單系統(tǒng)最好成績。模型算法的優(yōu)化突破,使得思必馳僅用軟件解決方案就可以達到以往采用語音降噪芯片才能達到的效果,大幅提升了識別率,降低了成本。
更先進的回聲消除和麥克風陣列算法組合:先進的回聲消除算法和麥克風陣列算法結合,可以有效的跟蹤用戶位置,增強語音信號質(zhì)量,實現(xiàn)高性能的通用語音識別。軟硬件結合的多種解決方案,更給出了更多的選擇和可能性。僅靠軟件且單麥克風條件下,通過大數(shù)據(jù)整合以及智能算法,思必馳仍然可以達到極為優(yōu)秀的使用體驗,識別速度與準確率均處在世界領先水平。
基于統(tǒng)計的參數(shù)化語音合成方法:傳統(tǒng)語音合成是采用拼接技術,錄制大規(guī)模的語音庫,切片后在合成的時候把片段拼起來,這就往往需要大量的標準語音。思必馳采用最新的基于統(tǒng)計的參數(shù)化語音合成方法,可以實現(xiàn)模型規(guī)模的大幅壓縮,語音連貫性的大幅提升,能夠自由訓練個性化的語音。
多輪交互和根據(jù)上下文的語義解析:在真實場景下,傳統(tǒng)語音識別加自然語言處理的方案并不能很好地實現(xiàn)自由的“人機交互”。思必馳在領先的傳統(tǒng)語音識別合成技術的基礎上,引入交互認知智能,通過情境理解和多輪交互,面向最終任務完成度和用戶體驗進行系統(tǒng)設計和優(yōu)化。
會場展示的智能產(chǎn)品吸引了眾多眼球
此外,易觀智庫的高級分析師封莉、歐瑞博CEO王雄輝、映趣科技CEO王小彬、威仕特CEO聞政親臨現(xiàn)場助陣,分享他們的產(chǎn)品經(jīng)驗極對語音技術的看法。如今的智能硬件市場已從最初的產(chǎn)業(yè)藍海逐漸轉(zhuǎn)變?yōu)橄乱粋€產(chǎn)業(yè)風口,產(chǎn)業(yè)生態(tài)系統(tǒng)尚未完善,需要多方合力,思必馳正積極聯(lián)合各方合力,力爭推動智能硬件的快速發(fā)展。思必馳、FACE++、微動、ablecloud、72變、中發(fā)時代聯(lián)合主辦即將于8月中下旬正式啟動上線的一檔大型活動——“創(chuàng)星計劃”,旨在培育中小型開發(fā)者成長,推促進智能硬件領域蓬勃發(fā)展的創(chuàng)業(yè)孵化器計劃。