在這場(chǎng)語(yǔ)音 AI 的造芯之路上,誰(shuí)將 C 位出道?
- shenzhenware -
與中國(guó)的家庭不同,歐美國(guó)家對(duì)于隱私的問(wèn)題格外的注重。
在剛剛結(jié)束的 IFA 展上,我們也看到國(guó)外的許多廠商對(duì)于在家電設(shè)備上安裝智能語(yǔ)音助手并沒(méi)有那么感冒,畢竟通過(guò)互聯(lián)網(wǎng)廠商的系統(tǒng)連接云端服務(wù),也就意味著設(shè)備要實(shí)時(shí)在線,并且用戶數(shù)據(jù)要實(shí)時(shí)共享。同時(shí),實(shí)時(shí)在線實(shí)時(shí)監(jiān)聽(tīng),也就意味著更多的能耗,盡管對(duì)于消費(fèi)用戶來(lái)是微乎其微,但系統(tǒng)要支持 7x24 小時(shí)的 Always On,對(duì)于軟硬件性能都會(huì)有更高的要求。
但這并不意味著家電廠商對(duì)于語(yǔ)音交互方式的排斥。相反,在原有的觸控或按鍵等交互方式的基礎(chǔ)上,在設(shè)備本地增加基本的語(yǔ)音識(shí)別和控制功能,在特定場(chǎng)景用戶需要的時(shí)候,再提供恰到好處的服務(wù),這對(duì)于每隔一段時(shí)間都需要疊加新功能新概念的家電設(shè)備來(lái)說(shuō),是錦上添花的事兒。
有需求就有商機(jī),基于邊緣計(jì)算的離線語(yǔ)音,逐漸興起。
1. 離線語(yǔ)音,沒(méi)那么簡(jiǎn)單
離線語(yǔ)音解決的基本問(wèn)題包括本地語(yǔ)音識(shí)別、本地計(jì)算、部分的數(shù)據(jù)訓(xùn)練。相應(yīng)的,對(duì)于硬件的要求就是低功耗、低成本、快速響應(yīng)。
Google 曾在 6 月開(kāi)發(fā)者大會(huì)上,推出了 Local Home SDK,其離線語(yǔ)音采用的是端云協(xié)同的方式,具體做法是:通過(guò) SDK 和 API 接口,允許開(kāi)發(fā)者在上面為智能設(shè)備建立新的附加執(zhí)行路徑,使得 Google 的智能音箱設(shè)備能以 JavaScript 腳本運(yùn)行這套協(xié)議和邏輯,并通過(guò)局域網(wǎng)與設(shè)備實(shí)現(xiàn)通訊、本地控制。而在本地執(zhí)行路徑失敗的情況下,云端將作為回退執(zhí)行路徑來(lái)處理指令。
盡管 Google 有大批的開(kāi)發(fā)者,但這套 Local Home SDK 對(duì)于開(kāi)發(fā)者的挑戰(zhàn)還是很大。已經(jīng)為上百種家電設(shè)備開(kāi)發(fā)過(guò)離線語(yǔ)音的啟英泰倫的工程師,從云到端的,為我們分析了語(yǔ)音開(kāi)發(fā)的難度。
云端語(yǔ)音開(kāi)發(fā),其核心是應(yīng)用各大云端平臺(tái)提供的接口,通過(guò)調(diào)用服務(wù)完成語(yǔ)音識(shí)別功能。這需要工程師明白接口調(diào)用及服務(wù)的要求,也需要熟悉各種操作系統(tǒng)。同時(shí),云端語(yǔ)音最終需要終端提供待識(shí)別的語(yǔ)音數(shù)據(jù),也需要工程師了解語(yǔ)音采集的過(guò)程和降噪技術(shù),才能做成性能出眾的產(chǎn)品,這本身就有難度。
而對(duì)于終端語(yǔ)音開(kāi)發(fā),雖然有廠家提供了如黑盒子一樣的離線語(yǔ)音技術(shù),做成類似 Google Local Home SDK 發(fā)布,但最終也需要工程師會(huì)編程,懂硬件結(jié)構(gòu),懂麥克風(fēng)和語(yǔ)音采集降噪的技術(shù),這些都有不小的挑戰(zhàn)。
特別的,語(yǔ)音交互類的設(shè)備本身在產(chǎn)品形態(tài)上差異化很大,使用場(chǎng)景也呈現(xiàn)出碎片化的特點(diǎn),要為用戶提供自然的本地語(yǔ)音交互體驗(yàn),就要對(duì)不同的產(chǎn)品做出不同的語(yǔ)音控制命令,這些都需要通過(guò)修改代碼實(shí)現(xiàn),工作量可想而知。再進(jìn)一步的讓設(shè)備達(dá)到用戶所需要的「極致」體驗(yàn),還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師??偠灾怯胁簧匍_(kāi)發(fā)門(mén)檻和開(kāi)發(fā)成本的。
2. 芯片設(shè)計(jì),沒(méi)那么簡(jiǎn)單
其實(shí)像 Google 這樣在離線語(yǔ)音交互方向上探索的算法公司有很多,為了讓算法更好的支持終端,他們正在掀起一輪「造芯」運(yùn)動(dòng)。
將算法集成在芯片中,用芯片實(shí)現(xiàn)其算法的商業(yè)價(jià)值,在產(chǎn)業(yè)上游卡位,閑暇之余再發(fā)幾款終端消費(fèi)硬件獲得市場(chǎng)關(guān)注。不得不說(shuō),這樣的戰(zhàn)略規(guī)劃可謂是相當(dāng)帥氣,尤其是在 5G+IoT 的黎明到來(lái)之際,市場(chǎng)前景一片大好。
這也凸顯了算法公司對(duì)于自身優(yōu)勢(shì)和短板的認(rèn)識(shí)。展開(kāi)來(lái)說(shuō),他們對(duì)于語(yǔ)音識(shí)別、語(yǔ)義理解、知識(shí)圖譜、數(shù)據(jù)訓(xùn)練等軟件和算法的理解更強(qiáng),但因?yàn)檐浖I(yè)務(wù)本身太「輕」,在商業(yè)上很難實(shí)現(xiàn)快速落地,因此他們向「云端芯」一體化方向發(fā)展,將業(yè)務(wù)延伸到芯片甚至硬件。
但算法公司做芯片,普遍面臨的挑戰(zhàn)是:龐大的數(shù)據(jù)和運(yùn)算量導(dǎo)致成本和功耗都非常大,將數(shù)十個(gè)中央處理器才能運(yùn)算的數(shù)據(jù)通過(guò)一個(gè)端上的一顆小小的芯片完成(通常是基于通用芯片的智能語(yǔ)音控制模組),技術(shù)上還存在難度。具體體現(xiàn)在:
首先,芯片設(shè)計(jì)周期長(zhǎng),從預(yù)研到進(jìn)入銷售期再到盈利,少說(shuō)也要兩三年,因此必須做到提前卡位。
其次,芯片設(shè)計(jì)不同于軟件,可以通過(guò)快速迭代逐漸優(yōu)化。芯片設(shè)計(jì)最重要的就是產(chǎn)品定義,如果一開(kāi)始定義不好,等設(shè)計(jì)完成后發(fā)現(xiàn)缺乏競(jìng)爭(zhēng)力再改,就算是老羅這樣的外行拿著互聯(lián)網(wǎng)思維那一套跟你拍桌子,也是無(wú)濟(jì)于事。
再次,語(yǔ)音 AI 芯片的集成化和工程化要求很高,開(kāi)發(fā)難度在前面我們已經(jīng)論述。
最后,眾所周知,芯片必須依賴大規(guī)模出貨才能賺到錢,這也就決定了語(yǔ)音 AI 芯片必須下沉到智能家居、小家電、兒童故事機(jī)等出貨量較大的設(shè)備市場(chǎng),才能實(shí)現(xiàn)高凈值。而與這些設(shè)備商打交道,明顯的,芯片商比算法商更深諳其道。
3. 芯片公司,是怎么做的?
那么離線語(yǔ)音這件事兒,如果芯片公司自己做會(huì)怎樣?
我們舉個(gè)例子,看一下在語(yǔ)音 AI 芯片領(lǐng)域展露頭角的啟英泰倫的造芯歷程。
早在 2015 年,行業(yè)內(nèi)關(guān)于本地端邊緣計(jì)算的概念還沒(méi)有興起,擁有 16 年芯片研發(fā)經(jīng)驗(yàn)、雙棲「家電+芯片」多年、曾是原海信信芯技術(shù)副總、長(zhǎng)虹 IC 部門(mén)總經(jīng)理的何云鵬,在成都高新區(qū)成立啟英泰倫,專門(mén)從事基于深度學(xué)習(xí)的語(yǔ)音識(shí)別芯片及配套算法引擎的研發(fā)。啟英泰倫在 2016 年推出了首款支持深度神經(jīng)網(wǎng)絡(luò)的人工智能語(yǔ)音芯片 CI1006,次年開(kāi)始量產(chǎn)。
在芯片設(shè)計(jì)方面,CI1006 采用的是可以實(shí)現(xiàn)更好的能耗比的 ASIC 架構(gòu)。而行業(yè)里的采用 FPGA 架構(gòu)的芯片公司,如 Quicklogic,其低功耗多核語(yǔ)音芯片的成本就非常高,這對(duì)于很多出貨量大、對(duì)成本斤斤計(jì)較的設(shè)備商,是「不劃算」的。
同時(shí),ASIC 架構(gòu)主要瞄準(zhǔn)消費(fèi)電子產(chǎn)品,晶體管會(huì)根據(jù)算法定制,因此不會(huì)出現(xiàn)冗余,計(jì)算效率高,性能高,功耗低。
總而言之,「ASIC 架構(gòu)更像是工廠開(kāi)模,雖然前期開(kāi)發(fā)時(shí)間長(zhǎng),上市相對(duì)比較慢,但非常適合量產(chǎn)。一旦量鋪開(kāi)了,均價(jià)也會(huì)快速降下來(lái)?!购卧迄i說(shuō)。
而在算法方面,啟英泰倫則是結(jié)合芯片定制,功耗可控點(diǎn)更高。比如針對(duì)竊聽(tīng)安全風(fēng)險(xiǎn)的問(wèn)題,啟英泰倫的做法是這樣的:利用近數(shù)據(jù)端的邊緣結(jié)點(diǎn),直接對(duì)數(shù)據(jù)源進(jìn)行處理,實(shí)現(xiàn)對(duì)一些敏感數(shù)據(jù)的保護(hù)與隔離;端節(jié)點(diǎn)可以僅接收來(lái)自云計(jì)算中心的請(qǐng)求,并將處理結(jié)果反饋給云端。
啟英泰倫的語(yǔ)音芯片內(nèi)置了自主研發(fā)的腦神經(jīng)網(wǎng)絡(luò)處理器 BNPU,支持本地大詞匯量的語(yǔ)音識(shí)別。通常本地語(yǔ)音識(shí)別詞匯量非常小,本地?cái)?shù)據(jù)訓(xùn)練受限,而 CI1006 可以有效的解決本地語(yǔ)音識(shí)別和控制。
4. 設(shè)備商,應(yīng)該如何選擇?
何云鵬幫我們分析了家電廠商的一般做法和存在的問(wèn)題:通常情況下,如果一家廠商想要給自己的產(chǎn)品增加語(yǔ)音控制功能,就要去找軟件算法商、芯片公司、方案商,甚至是聲學(xué)方面的硬件商。前期調(diào)研周期長(zhǎng)不說(shuō),資源即使強(qiáng)大,也只能成功對(duì)接到幾十家的有效支持。這種模式無(wú)法支持家電廠商全系大規(guī)模智能化的市場(chǎng)需求。
而家電廠商如果通過(guò)算法商基于普通芯片定制開(kāi)發(fā)語(yǔ)音識(shí)別模組,那么算法商需要從芯片原廠選定芯片,將云端算法移植到芯片上,并進(jìn)行調(diào)試。然后還需要底層硬件開(kāi)發(fā)公司將整體方案做成模組板卡,提供給家電廠商。這種實(shí)現(xiàn)方式鏈條環(huán)節(jié)多,周期長(zhǎng),家電廠商還要支付額外的開(kāi)發(fā)費(fèi)用和授權(quán)費(fèi)用,這對(duì)于苛求毛利率到分的設(shè)備商來(lái)說(shuō),是必須要考慮的現(xiàn)實(shí)問(wèn)題。
如何判斷語(yǔ)音 AI 芯片是否靠譜呢?或許這里提煉的幾個(gè)特征,為家電和設(shè)備廠商們的評(píng)估提供了維度:
低成本、低功耗、低時(shí)延
云邊端一體化
芯片規(guī)格和制式可定制
9 月 19 日,啟英泰倫將在深圳舉辦主題為「聲無(wú)界·芯未來(lái)」的新品發(fā)布會(huì),推出新一代語(yǔ)音芯片和語(yǔ)音 AI 開(kāi)發(fā)平臺(tái),旨在進(jìn)一步降低產(chǎn)品智能化開(kāi)發(fā)和成本門(mén)檻 ,助力終端設(shè)備商更高效率、更低成本實(shí)現(xiàn)智能化?,F(xiàn)場(chǎng)將設(shè)立新技術(shù)體驗(yàn)及專屬洽談區(qū),期待行業(yè)精英參與。