引言: 蘋果、Google、亞馬遜等科技巨頭一致看好的智能音箱市場,國內(nèi)廠商應(yīng)該如何布局呢?Mediawin一站式音視頻解決方案,讓國內(nèi)客戶快速跟上國際大廠的腳步。
最近,智能音箱確實“火”了。在今年的Google I/O大會上,內(nèi)置Google Assistant語音助手的智能音箱Google Home讓人印象深刻;在2016 Code conference上,亞馬遜的Echo智能音箱也被“擺上”臺面;據(jù)悉蘋果也將推出集成攝像頭、SIri語音助手的智能音箱。各大巨頭紛紛登場,F(xiàn)acebook、百度、騰訊…相信也已經(jīng)不遠(yuǎn)了!
實際上,智能音箱也僅是音視頻應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域的冰山一角,還有大量的新興應(yīng)用,比如智能機器人、智能門鈴、VR/AR、智能電烤爐、智能冰箱、車載后視鏡等,都需要視頻技術(shù)的支撐。由此可見,在物聯(lián)網(wǎng)時期,音視頻應(yīng)用正迎來“爆發(fā)式”的增加,眼睛和耳朵將無處不在。
“戴上”耳朵和眼睛,智能硬件世界將會怎樣
智慧教育
傳統(tǒng)的課堂教育都是老師在上面講,而學(xué)生在下面聽;在線教育靈活方便,在任何地方、任何時間都能進(jìn)行學(xué)習(xí),并且自由控制學(xué)習(xí)進(jìn)度。
智慧監(jiān)控
傳統(tǒng)的監(jiān)控方式只是將視頻存儲在服務(wù)器,發(fā)生案件之后才去翻看視頻內(nèi)容;智慧監(jiān)控不僅能在線警示,還能進(jìn)行人臉識別、移動監(jiān)測、實時通訊等功能。
智能兒童陪伴機器人
一般的玩具缺乏趣味,沒有任何互動的功能;智能兒童陪伴機器人能夠講故事、播放歌曲、實時拍照、語音交互等功能。
智慧汽車
功能型汽車的駕駛情況完全依賴于司機的狀態(tài),疲勞駕駛、分心、操作不當(dāng)都可能導(dǎo)致意外事故;無人駕駛汽車是計算機系統(tǒng),能360度全方位的看到路況,減少事故和人員傷亡,同時緩解交通壓力。
智慧音響
一般的音箱只能播放音樂,沒有連接互聯(lián)網(wǎng)上海量的資源;智能音箱不僅能聯(lián)網(wǎng),還可以進(jìn)行語音交互,作為家庭控制中心,從而通過語音控制家庭中的其他智能設(shè)備。
不過,現(xiàn)在的產(chǎn)業(yè)面臨著融合發(fā)展的趨勢,沒有一家公司能面面具到,也很難從技術(shù)、市場到產(chǎn)品都自己搞定。經(jīng)過《智慧產(chǎn)品圈》的調(diào)研發(fā)現(xiàn),深圳有一家公司迪韻科技,可以在物聯(lián)網(wǎng)音視頻領(lǐng)域提供一站式解決方案,其Mediawin平臺為傳統(tǒng)行業(yè)以及硬件企業(yè)提供“耳朵”和“眼鏡”方案,僅需3個月就能讓客戶的產(chǎn)品完成智能化升級。
云+管+端一站式解決方案,輕松幫助客戶“戴上”眼睛和耳朵
為了幫助客戶更快實現(xiàn)音視頻應(yīng)用,Mediawin方案平臺整合了多方面的資源,比如與多家聲學(xué)器件廠商合作定制了麥克風(fēng)、喇叭等聲學(xué)器件;與專業(yè)芯片廠商合作開發(fā)了深度優(yōu)化的音頻處理算法;與語音識別方案商合作提升語音識別的準(zhǔn)確率;接入第三方的平臺提供更多的音視頻應(yīng)用功能等。
圖:迪韻科技市場總監(jiān)孫強
基于此,迪韻科技營銷總監(jiān)孫強表示:“Mediawin專注于為客戶提供“云+管+端一站式音視頻解決方案”,也可以根據(jù)客戶的不同需求,比如白牌企業(yè)可能需要完整的音視頻解決方案、大企業(yè)可能僅需要底層處理算法支持、方案商需要整合專業(yè)的處理算法+云平臺資源等,提供定制化的軟硬件方案服務(wù)。”
Mediawin云+管+端一站式解決方案
在設(shè)備端,Mediawin平臺針對各種嵌入式產(chǎn)品,擁有完善的硬件解決方案,比如專業(yè)的音腔設(shè)計、音視頻器件選型、聲學(xué)場景優(yōu)化、音視頻模組等,能幫助企業(yè)簡化6大音視頻開發(fā)難題。另外,在云平臺方面,不同市場對音視頻云平臺的需求會有所差別,比如在線教育需要一對多實時在線高并發(fā)的模式,監(jiān)控需要聲源定位、人臉識別、語音激活等功能,音樂需要海量在線資源與點播功能等。為此,在深入了解不同市場需求的基礎(chǔ)上, Mediawin進(jìn)行了深度優(yōu)化和定制化。孫強繼續(xù)向《智慧產(chǎn)品圈》記者表示:“Mediawin平臺內(nèi)部集成了監(jiān)控云、教育云、音樂云、實時通訊云等子云平臺系統(tǒng),根據(jù)應(yīng)用行業(yè)的需求優(yōu)化子云平臺的功能和架構(gòu),以滿足不同行業(yè)的需求?!?/p>
Mediawin的6大解決方案
就拿常用的智能機器人多媒體部分為例,Mediawin平臺不僅能在設(shè)備端提供MIC陣列模組、攝像模組、機器人聲學(xué)結(jié)構(gòu)設(shè)計、聲學(xué)器件選型等硬件方案和服務(wù),也提供回聲消除、噪聲抑制、語音打斷、聲源定位、人臉識別、美顏、移動偵測、人臉識別等軟件音視頻處理算法,以及網(wǎng)絡(luò)傳輸協(xié)議、音視頻編解碼、傳輸延時監(jiān)測等多媒體傳輸技術(shù),云端還有設(shè)備注冊管理、多方視頻會議、PSTN落地、云監(jiān)控、云錄像、云直播等功能,從設(shè)備端、傳輸管道、再到云平臺的一站式設(shè)計服務(wù)。
因此,在智能監(jiān)控、機器人等物聯(lián)網(wǎng)市場,Mediawin平臺已經(jīng)擁有了成熟的合作案例,比如奇虎360的智能攝像機,北京智能管家的布丁機器人,深圳市藍(lán)機器人科技的IONE機器人等智能產(chǎn)品。
“千里眼”“順風(fēng)耳”沒那么簡單,Mediawin背后解決了哪些技術(shù)難題
音視頻傳輸延遲嚴(yán)重不同步:迪韻科技首席技術(shù)官彭遠(yuǎn)疆說道:“由于網(wǎng)絡(luò)環(huán)境的影響,音視頻數(shù)據(jù)包在網(wǎng)絡(luò)上傳輸會面臨各種挑戰(zhàn)。首先,一般實時音視頻流采用UDP傳輸協(xié)議,容易發(fā)生丟包的情況,導(dǎo)致接收端花屏和語音失真。其次,每一個數(shù)據(jù)包從發(fā)出到被接收的時間都是不一樣的,所以需要在接收端引入緩存機制。不過緩存越長,抗網(wǎng)絡(luò)抖動的效果自然越好,但是附加延時也會越大,采集端和接收端的時間差越明顯,在需要音視頻互動的場景中體驗效果非常差。最后,由于網(wǎng)絡(luò)帶寬的限制,丟包率和卡頓概率都會急劇提高。”
圖:迪韻科技首席技術(shù)官彭遠(yuǎn)疆
網(wǎng)絡(luò)傳輸算法是“殺手锏”:Mediawin平臺在RTP/RTCP傳輸協(xié)議的基礎(chǔ)上,建立了適合智能設(shè)備的流媒體網(wǎng)絡(luò)傳輸算法模型,通過對每一幀的發(fā)射/接收時間進(jìn)行統(tǒng)計分析,實時估算出當(dāng)前網(wǎng)絡(luò)的延時、丟包、帶寬等數(shù)據(jù),并通過實時調(diào)整編碼碼率、緩沖長度、重傳策略等,確保在各種復(fù)雜網(wǎng)絡(luò)環(huán)境下的均能保持良好的音視頻傳輸質(zhì)量。另外,由于采用了國際標(biāo)準(zhǔn)的SIP/ONVIF接入?yún)f(xié)議和TLS/SRTP安全協(xié)議,Mediawin平臺不僅能接入各類音視頻硬件,同時也為最終用戶提供了金融級的安全保障。
音視頻處理效果差,產(chǎn)品體驗不佳:由于受到周圍自然環(huán)境的影響,比如強光背景、低亮度環(huán)境、汽車噪聲、聲音反射等,硬件設(shè)備端采集到音視頻流需要經(jīng)過復(fù)雜的算法處理,才可能擁有較好的畫質(zhì)和音效。彭遠(yuǎn)疆表示:“音頻前端如回聲和混響消除、噪聲抑制、拾音音量自動調(diào)節(jié)等算法均是難點。如若涉及多人視頻,還需要解決多人語音的混音、視頻混屏和切換的問題,并且需要保障音頻和視頻的時間差低于300ms,否則就會出現(xiàn)唇音不同步的現(xiàn)象?!?/p>
設(shè)備+云聯(lián)動音視頻算法“殺手锏”:深度優(yōu)化了底層的音視頻算法,比如音頻回聲消除、噪聲抑制、視頻降噪、白平衡控制、曝光控制等,在提升效果的同時還能夠適應(yīng)各種不同的軟硬件平臺。
不過,在音視頻處理的過程中,不可能將所有的算法都放在設(shè)備端,而應(yīng)該根據(jù)實際應(yīng)用情況,合理的分布在設(shè)備端和云端。彭遠(yuǎn)疆表示:“Mediawin的音視頻云平臺采用了大規(guī)模的分布式網(wǎng)絡(luò)技術(shù),可支持多人實時在線的大容量并發(fā)和拓展,集成降噪、混音、混屏、轉(zhuǎn)碼、人臉識別等各種音視頻處理算法,同時接入第三方功能,擴充語音識別、語義理解、人工智能等服務(wù)。”
未來展望
彭遠(yuǎn)疆表示,基于在音視頻方案和技術(shù)上的積累,Mediawin平臺不斷拓展垂直生態(tài)的第三方合作伙伴,開放API接口接入更多的應(yīng)用算法(如摔倒檢測、手勢識別等),打造更加龐大的物聯(lián)網(wǎng)音視頻應(yīng)用平臺。同時“眼睛”和“耳朵”作為物聯(lián)網(wǎng)的一部分,需要融合到其他行業(yè)生態(tài)中,Mediawin平臺希望橫向?qū)悠渌膶I(yè)領(lǐng)域云平臺,如智慧家庭、智能家居、智能醫(yī)療等。