引言: 蘋(píng)果、Google、亞馬遜等科技巨頭一致看好的智能音箱市場(chǎng),國(guó)內(nèi)廠商應(yīng)該如何布局呢?Mediawin一站式音視頻解決方案,讓國(guó)內(nèi)客戶快速跟上國(guó)際大廠的腳步。
最近,智能音箱確實(shí)“火”了。在今年的Google I/O大會(huì)上,內(nèi)置Google Assistant語(yǔ)音助手的智能音箱Google Home讓人印象深刻;在2016 Code conference上,亞馬遜的Echo智能音箱也被“擺上”臺(tái)面;據(jù)悉蘋(píng)果也將推出集成攝像頭、SIri語(yǔ)音助手的智能音箱。各大巨頭紛紛登場(chǎng),F(xiàn)acebook、百度、騰訊…相信也已經(jīng)不遠(yuǎn)了!
實(shí)際上,智能音箱也僅是音視頻應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域的冰山一角,還有大量的新興應(yīng)用,比如智能機(jī)器人、智能門(mén)鈴、VR/AR、智能電烤爐、智能冰箱、車(chē)載后視鏡等,都需要視頻技術(shù)的支撐。由此可見(jiàn),在物聯(lián)網(wǎng)時(shí)期,音視頻應(yīng)用正迎來(lái)“爆發(fā)式”的增加,眼睛和耳朵將無(wú)處不在。
“戴上”耳朵和眼睛,智能硬件世界將會(huì)怎樣
智慧教育
傳統(tǒng)的課堂教育都是老師在上面講,而學(xué)生在下面聽(tīng);在線教育靈活方便,在任何地方、任何時(shí)間都能進(jìn)行學(xué)習(xí),并且自由控制學(xué)習(xí)進(jìn)度。
智慧監(jiān)控
傳統(tǒng)的監(jiān)控方式只是將視頻存儲(chǔ)在服務(wù)器,發(fā)生案件之后才去翻看視頻內(nèi)容;智慧監(jiān)控不僅能在線警示,還能進(jìn)行人臉識(shí)別、移動(dòng)監(jiān)測(cè)、實(shí)時(shí)通訊等功能。
智能兒童陪伴機(jī)器人
一般的玩具缺乏趣味,沒(méi)有任何互動(dòng)的功能;智能兒童陪伴機(jī)器人能夠講故事、播放歌曲、實(shí)時(shí)拍照、語(yǔ)音交互等功能。
智慧汽車(chē)
功能型汽車(chē)的駕駛情況完全依賴(lài)于司機(jī)的狀態(tài),疲勞駕駛、分心、操作不當(dāng)都可能導(dǎo)致意外事故;無(wú)人駕駛汽車(chē)是計(jì)算機(jī)系統(tǒng),能360度全方位的看到路況,減少事故和人員傷亡,同時(shí)緩解交通壓力。
智慧音響
一般的音箱只能播放音樂(lè),沒(méi)有連接互聯(lián)網(wǎng)上海量的資源;智能音箱不僅能聯(lián)網(wǎng),還可以進(jìn)行語(yǔ)音交互,作為家庭控制中心,從而通過(guò)語(yǔ)音控制家庭中的其他智能設(shè)備。
不過(guò),現(xiàn)在的產(chǎn)業(yè)面臨著融合發(fā)展的趨勢(shì),沒(méi)有一家公司能面面具到,也很難從技術(shù)、市場(chǎng)到產(chǎn)品都自己搞定。經(jīng)過(guò)《智慧產(chǎn)品圈》的調(diào)研發(fā)現(xiàn),深圳有一家公司迪韻科技,可以在物聯(lián)網(wǎng)音視頻領(lǐng)域提供一站式解決方案,其Mediawin平臺(tái)為傳統(tǒng)行業(yè)以及硬件企業(yè)提供“耳朵”和“眼鏡”方案,僅需3個(gè)月就能讓客戶的產(chǎn)品完成智能化升級(jí)。
云+管+端一站式解決方案,輕松幫助客戶“戴上”眼睛和耳朵
為了幫助客戶更快實(shí)現(xiàn)音視頻應(yīng)用,Mediawin方案平臺(tái)整合了多方面的資源,比如與多家聲學(xué)器件廠商合作定制了麥克風(fēng)、喇叭等聲學(xué)器件;與專(zhuān)業(yè)芯片廠商合作開(kāi)發(fā)了深度優(yōu)化的音頻處理算法;與語(yǔ)音識(shí)別方案商合作提升語(yǔ)音識(shí)別的準(zhǔn)確率;接入第三方的平臺(tái)提供更多的音視頻應(yīng)用功能等。
圖:迪韻科技市場(chǎng)總監(jiān)孫強(qiáng)
基于此,迪韻科技營(yíng)銷(xiāo)總監(jiān)孫強(qiáng)表示:“Mediawin專(zhuān)注于為客戶提供“云+管+端一站式音視頻解決方案”,也可以根據(jù)客戶的不同需求,比如白牌企業(yè)可能需要完整的音視頻解決方案、大企業(yè)可能僅需要底層處理算法支持、方案商需要整合專(zhuān)業(yè)的處理算法+云平臺(tái)資源等,提供定制化的軟硬件方案服務(wù)?!?/p>
Mediawin云+管+端一站式解決方案
在設(shè)備端,Mediawin平臺(tái)針對(duì)各種嵌入式產(chǎn)品,擁有完善的硬件解決方案,比如專(zhuān)業(yè)的音腔設(shè)計(jì)、音視頻器件選型、聲學(xué)場(chǎng)景優(yōu)化、音視頻模組等,能幫助企業(yè)簡(jiǎn)化6大音視頻開(kāi)發(fā)難題。另外,在云平臺(tái)方面,不同市場(chǎng)對(duì)音視頻云平臺(tái)的需求會(huì)有所差別,比如在線教育需要一對(duì)多實(shí)時(shí)在線高并發(fā)的模式,監(jiān)控需要聲源定位、人臉識(shí)別、語(yǔ)音激活等功能,音樂(lè)需要海量在線資源與點(diǎn)播功能等。為此,在深入了解不同市場(chǎng)需求的基礎(chǔ)上, Mediawin進(jìn)行了深度優(yōu)化和定制化。孫強(qiáng)繼續(xù)向《智慧產(chǎn)品圈》記者表示:“Mediawin平臺(tái)內(nèi)部集成了監(jiān)控云、教育云、音樂(lè)云、實(shí)時(shí)通訊云等子云平臺(tái)系統(tǒng),根據(jù)應(yīng)用行業(yè)的需求優(yōu)化子云平臺(tái)的功能和架構(gòu),以滿足不同行業(yè)的需求?!?/p>
Mediawin的6大解決方案
就拿常用的智能機(jī)器人多媒體部分為例,Mediawin平臺(tái)不僅能在設(shè)備端提供MIC陣列模組、攝像模組、機(jī)器人聲學(xué)結(jié)構(gòu)設(shè)計(jì)、聲學(xué)器件選型等硬件方案和服務(wù),也提供回聲消除、噪聲抑制、語(yǔ)音打斷、聲源定位、人臉識(shí)別、美顏、移動(dòng)偵測(cè)、人臉識(shí)別等軟件音視頻處理算法,以及網(wǎng)絡(luò)傳輸協(xié)議、音視頻編解碼、傳輸延時(shí)監(jiān)測(cè)等多媒體傳輸技術(shù),云端還有設(shè)備注冊(cè)管理、多方視頻會(huì)議、PSTN落地、云監(jiān)控、云錄像、云直播等功能,從設(shè)備端、傳輸管道、再到云平臺(tái)的一站式設(shè)計(jì)服務(wù)。
因此,在智能監(jiān)控、機(jī)器人等物聯(lián)網(wǎng)市場(chǎng),Mediawin平臺(tái)已經(jīng)擁有了成熟的合作案例,比如奇虎360的智能攝像機(jī),北京智能管家的布丁機(jī)器人,深圳市藍(lán)機(jī)器人科技的IONE機(jī)器人等智能產(chǎn)品。
“千里眼”“順風(fēng)耳”沒(méi)那么簡(jiǎn)單,Mediawin背后解決了哪些技術(shù)難題
音視頻傳輸延遲嚴(yán)重不同步:迪韻科技首席技術(shù)官彭遠(yuǎn)疆說(shuō)道:“由于網(wǎng)絡(luò)環(huán)境的影響,音視頻數(shù)據(jù)包在網(wǎng)絡(luò)上傳輸會(huì)面臨各種挑戰(zhàn)。首先,一般實(shí)時(shí)音視頻流采用UDP傳輸協(xié)議,容易發(fā)生丟包的情況,導(dǎo)致接收端花屏和語(yǔ)音失真。其次,每一個(gè)數(shù)據(jù)包從發(fā)出到被接收的時(shí)間都是不一樣的,所以需要在接收端引入緩存機(jī)制。不過(guò)緩存越長(zhǎng),抗網(wǎng)絡(luò)抖動(dòng)的效果自然越好,但是附加延時(shí)也會(huì)越大,采集端和接收端的時(shí)間差越明顯,在需要音視頻互動(dòng)的場(chǎng)景中體驗(yàn)效果非常差。最后,由于網(wǎng)絡(luò)帶寬的限制,丟包率和卡頓概率都會(huì)急劇提高。”
圖:迪韻科技首席技術(shù)官彭遠(yuǎn)疆
網(wǎng)絡(luò)傳輸算法是“殺手锏”:Mediawin平臺(tái)在RTP/RTCP傳輸協(xié)議的基礎(chǔ)上,建立了適合智能設(shè)備的流媒體網(wǎng)絡(luò)傳輸算法模型,通過(guò)對(duì)每一幀的發(fā)射/接收時(shí)間進(jìn)行統(tǒng)計(jì)分析,實(shí)時(shí)估算出當(dāng)前網(wǎng)絡(luò)的延時(shí)、丟包、帶寬等數(shù)據(jù),并通過(guò)實(shí)時(shí)調(diào)整編碼碼率、緩沖長(zhǎng)度、重傳策略等,確保在各種復(fù)雜網(wǎng)絡(luò)環(huán)境下的均能保持良好的音視頻傳輸質(zhì)量。另外,由于采用了國(guó)際標(biāo)準(zhǔn)的SIP/ONVIF接入?yún)f(xié)議和TLS/SRTP安全協(xié)議,Mediawin平臺(tái)不僅能接入各類(lèi)音視頻硬件,同時(shí)也為最終用戶提供了金融級(jí)的安全保障。
音視頻處理效果差,產(chǎn)品體驗(yàn)不佳:由于受到周?chē)匀画h(huán)境的影響,比如強(qiáng)光背景、低亮度環(huán)境、汽車(chē)噪聲、聲音反射等,硬件設(shè)備端采集到音視頻流需要經(jīng)過(guò)復(fù)雜的算法處理,才可能擁有較好的畫(huà)質(zhì)和音效。彭遠(yuǎn)疆表示:“音頻前端如回聲和混響消除、噪聲抑制、拾音音量自動(dòng)調(diào)節(jié)等算法均是難點(diǎn)。如若涉及多人視頻,還需要解決多人語(yǔ)音的混音、視頻混屏和切換的問(wèn)題,并且需要保障音頻和視頻的時(shí)間差低于300ms,否則就會(huì)出現(xiàn)唇音不同步的現(xiàn)象?!?/p>
設(shè)備+云聯(lián)動(dòng)音視頻算法“殺手锏”:深度優(yōu)化了底層的音視頻算法,比如音頻回聲消除、噪聲抑制、視頻降噪、白平衡控制、曝光控制等,在提升效果的同時(shí)還能夠適應(yīng)各種不同的軟硬件平臺(tái)。
不過(guò),在音視頻處理的過(guò)程中,不可能將所有的算法都放在設(shè)備端,而應(yīng)該根據(jù)實(shí)際應(yīng)用情況,合理的分布在設(shè)備端和云端。彭遠(yuǎn)疆表示:“Mediawin的音視頻云平臺(tái)采用了大規(guī)模的分布式網(wǎng)絡(luò)技術(shù),可支持多人實(shí)時(shí)在線的大容量并發(fā)和拓展,集成降噪、混音、混屏、轉(zhuǎn)碼、人臉識(shí)別等各種音視頻處理算法,同時(shí)接入第三方功能,擴(kuò)充語(yǔ)音識(shí)別、語(yǔ)義理解、人工智能等服務(wù)?!?/p>
未來(lái)展望
彭遠(yuǎn)疆表示,基于在音視頻方案和技術(shù)上的積累,Mediawin平臺(tái)不斷拓展垂直生態(tài)的第三方合作伙伴,開(kāi)放API接口接入更多的應(yīng)用算法(如摔倒檢測(cè)、手勢(shì)識(shí)別等),打造更加龐大的物聯(lián)網(wǎng)音視頻應(yīng)用平臺(tái)。同時(shí)“眼睛”和“耳朵”作為物聯(lián)網(wǎng)的一部分,需要融合到其他行業(yè)生態(tài)中,Mediawin平臺(tái)希望橫向?qū)悠渌膶?zhuān)業(yè)領(lǐng)域云平臺(tái),如智慧家庭、智能家居、智能醫(yī)療等。