英特爾宣布已于近日開始生產(chǎn)的第三代英特爾?至強(qiáng)?可擴(kuò)展處理器(代號“Ice Lake”)將于2021年第一季度實(shí)現(xiàn)規(guī)模量產(chǎn)。
人工智能的影響力正在不斷加深。如今,越來越多企業(yè)加入到了數(shù)字化轉(zhuǎn)型的道路上,這場變革讓行業(yè)的智能化水平不斷提高。在新基建的引導(dǎo)下,人工智能技術(shù)逐漸成為數(shù)字經(jīng)濟(jì)發(fā)展的新動能,同時也為企業(yè)的轉(zhuǎn)型升級注入強(qiáng)大動力。數(shù)據(jù)顯示,到 2021 年將會有 75% 的企業(yè)應(yīng)用集成人工智能。
AI 語音是人工智能技術(shù)最廣泛的應(yīng)用,它架起了人類與數(shù)字世界之間最簡單有效的溝通橋梁。在這樣的背景下,越來越多的科技企業(yè)與初創(chuàng)企業(yè)進(jìn)軍智能語音市場,而騰訊作為人工智能創(chuàng)新的引領(lǐng)者,打造出云小微智能語音與視頻服務(wù)接入平臺,全方位賦能行業(yè)轉(zhuǎn)型。
為了最大化釋放云小微平臺的價值與能力,騰訊與英特爾合作,共同構(gòu)建定制化 Parallel WaveNet(pWaveNet)聲碼器模型解決方案以及定制化 WaveRNN 聲碼器模型解決方案,對平臺進(jìn)行深度優(yōu)化,不僅為云小微提供了突出的語音合成性能,而且還有效降低了用戶總擁有成本(TCO),讓更多企業(yè)可以體驗(yàn)到先進(jìn)的智能語音服務(wù)。
產(chǎn)業(yè)新風(fēng)智能語音的星辰大海
AI 正在變得無處不在。在新一輪產(chǎn)業(yè)變革中,人工智能技術(shù)發(fā)揮了愈加重要的作用,作為加速數(shù)字化轉(zhuǎn)型實(shí)踐的核心驅(qū)動力,人工智能的發(fā)展對社會經(jīng)濟(jì)和人類生活都產(chǎn)生了十分深遠(yuǎn)的影響。
人工智能與場景結(jié)合賦能產(chǎn)業(yè)升級,在這個過程中,越來越多的 AI 應(yīng)用出現(xiàn),其中,智能語音的增長最為突出。
近年來,隨著實(shí)體經(jīng)濟(jì)與數(shù)字經(jīng)濟(jì)的深度融合,人工智能技術(shù)也在越來越多的行業(yè)中落地,成為行業(yè)數(shù)字化升級的基石。作為人工智能最常見的應(yīng)用,企業(yè)通過 AI 語音交互技術(shù)與自身業(yè)務(wù)發(fā)展及商業(yè)模式相結(jié)合,開發(fā)出更具視覺效應(yīng)的 IP 形象。這些 AI 助手成為企業(yè)的“數(shù)字員工”,來幫助企業(yè)更好地服務(wù)用戶。
人工智能在各行業(yè)加速落地,而各新興智能產(chǎn)品企業(yè)也在基于智能語音合成技術(shù),來研發(fā)各種智能語音,如語音導(dǎo)航、智能客服、有聲讀物、智能語音輸入與識別等。越來越多的智能語音出現(xiàn),讓人工智能市場更加繁榮,也推進(jìn)著 AI 創(chuàng)新的發(fā)展。數(shù)據(jù)顯示,我國智能語音市場規(guī)模在 2021 年可達(dá) 194.8 億元。
智能語音應(yīng)用打通了人機(jī)交互的閉環(huán),可以讓用戶獲得更多生活上的便利。然而在實(shí)際應(yīng)用中,智能語音應(yīng)用也逐漸顯現(xiàn)出一些問題。一方面,智能語音產(chǎn)品越來越多,但能力參差不齊,操作方式也不同,“智能”反而成了一種累贅;另一方面,智能語音應(yīng)用與現(xiàn)實(shí)場景的結(jié)合往往會面臨很多額外的“干擾項(xiàng)”。比如在智能交通領(lǐng)域,車載語音識別就會受到口音、噪聲、場景化語音等多個變量的影響,從而影響識別的準(zhǔn)確度。
要解決這些問題,一是統(tǒng)一研發(fā)平臺,二是提高平臺語音合成技術(shù)能力?;诖?,騰訊推出云小微智能語音與視頻服務(wù)接入平臺,通過結(jié)合全棧語音語義 AI 能力和騰訊云服務(wù),不僅能夠?yàn)橛脩糨敵龈咂焚|(zhì) AI 平臺能力,還可以依托騰訊豐富的產(chǎn)品線和大數(shù)據(jù)能力,幫助用戶獲得整合騰訊中臺能力的豐富場景應(yīng)用方案。
聯(lián)合定制騰訊云小微賦能產(chǎn)業(yè)升級
騰訊云小微是一個以基于神經(jīng)網(wǎng)絡(luò)聲碼器模型的 TTS(Text To Speech) 合成技術(shù)為核心能力的智能語音與視頻服務(wù)接入平臺,它能夠通過端到端聲學(xué)模型,來實(shí)現(xiàn)文本到語音的高質(zhì)量轉(zhuǎn)化與表達(dá)。
TTS 語音合成技術(shù)是人機(jī)溝通的關(guān)鍵性技術(shù)之一,它可以將外部輸入的文本或計(jì)算機(jī)自己產(chǎn)生的信息,通過自然語言表達(dá)出來。在這個過程中,聲碼器模型十分關(guān)鍵,它可以通過計(jì)算分析來輸出相應(yīng)的語音波形,所以不同聲碼器模型的選用對語音合成效果也有著不同的影響。
常見的語音合成聲碼器模型,如 WaveNet,是相對比較成熟的技術(shù),其生成的語音質(zhì)量接近自然人聲。不過,在實(shí)際運(yùn)用中,傳統(tǒng) WaveNet 模型也存在著諸多不足。一是 WaveNet 模型結(jié)構(gòu)十分復(fù)雜,對計(jì)算力要求很高;二是 WaveNet 模型語音合成時間較長,在實(shí)際交互場景中難以滿足用戶對實(shí)時性的要求;三是隨著智能語音應(yīng)用場景的普及,智能語音合成平臺需要對更多設(shè)備提供支持,工作負(fù)載加大,聲碼器模型的語音合成工作效能有待提升;四是對于企業(yè)而言,擴(kuò)容帶來的成本增加。
基于此,騰訊與英特爾合作,采用全新第三代英特爾至強(qiáng)可擴(kuò)展處理器作為核心算力引擎,共同構(gòu)建了定制化 pWaveNet 聲碼器模型解決方案及定制化 WaveRNN 聲碼器模型解決方案,以此實(shí)現(xiàn)云小微平臺能力最大化。
Parallel WaveNet模型架構(gòu)圖
定制化 pWaveNet 聲碼器解決方案,在 WaveNet 模型的基礎(chǔ)上引入“概率密度蒸餾”技術(shù),利用一個已經(jīng)訓(xùn)練好的 WaveNet 模型來指導(dǎo)實(shí)施生產(chǎn)的網(wǎng)絡(luò)進(jìn)行預(yù)測,這樣不僅可以擺脫依賴于先前已生成點(diǎn)作為輸入條件的順序生成模式,還能夠一次性生成整個序列上的輸出采樣點(diǎn),大幅減少語音合成時間。
不僅如此,騰訊還在定制化 pWaveNet 模型中將網(wǎng)絡(luò)一維卷積運(yùn)算轉(zhuǎn)換為幾個通用矩陣相乘的操作,以此減少模型計(jì)算量。同時,引入 Open-MP 并行機(jī)制,充分發(fā)揮定制化 pWaveNet 模型中并行計(jì)算的優(yōu)勢,在不影響語音質(zhì)量的前提下,有效提高語音合成速度。
WaveRNN模型架構(gòu)圖
定制化 WaveRNN 聲碼器解決方案,專為逐漸增加的工作負(fù)載而設(shè)計(jì)。其主體部分依舊是 WaveRNN 模型中具有雙 softmax 層的單循環(huán)網(wǎng)絡(luò)的基本結(jié)構(gòu),不過卻將該網(wǎng)絡(luò)原始輸入中的線性部分分離出來,并進(jìn)行 LPC 預(yù)估處理,以此來大幅降低網(wǎng)絡(luò)處理難度,有效提高整體計(jì)算速度。與此同時,定制化 WaveRNN 聲碼器解決方案還引入了稀疏化技術(shù),來減少帶寬占用,降低網(wǎng)絡(luò)整體計(jì)算時間,并在多核環(huán)境中平衡計(jì)算力,增強(qiáng)模型運(yùn)行的穩(wěn)定性。
第三代英特爾?至強(qiáng)?可擴(kuò)展處理器為定制化 pWaveNet 聲碼器解決方案及定制化WaveRNN 聲碼器解決方案提供強(qiáng)大底層支撐。新一代英特爾至強(qiáng)可擴(kuò)展處理器不僅具備更多的內(nèi)核與線程,在為云小微提供強(qiáng)大算力的同時,也滿足其對吞吐量的需求。
更值得一提的是,第三代英特爾?至強(qiáng)?可擴(kuò)展處理器內(nèi)置的BF16指令集在整個方案中起到了十分關(guān)鍵的作用,大幅提升AI能力,在兩種不同定制化的拓?fù)浣Y(jié)構(gòu)上將推理性能分別提高 1.89 倍和 1.54 倍。并與英特爾 AVX-512 指令一起,在英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫的配合下,加速硬件效率。再配合新一代處理器配備的更大緩存,能夠有效提升整體處理性能。
合創(chuàng)共贏英特爾構(gòu)建智能生態(tài)圈
世界正在朝著更加智慧化的方向前進(jìn),英特爾開啟以數(shù)據(jù)為中心的轉(zhuǎn)型,以全面的軟硬件實(shí)力來幫助企業(yè)實(shí)現(xiàn)智能化部署。同時,英特爾也在與越來越多的合作伙伴一起,借助自身深厚的技術(shù)積累和豐富的產(chǎn)品組合,共同開發(fā)新的智能應(yīng)用,加速AI創(chuàng)新發(fā)展。
云小微平臺就是英特爾與騰訊在AI領(lǐng)域聯(lián)合創(chuàng)新的成果,事實(shí)上,在去年的騰訊全球數(shù)字生態(tài)大會上,英特爾與騰訊達(dá)成了一系列創(chuàng)新合作,不僅全面升級了騰訊與英特爾聯(lián)合實(shí)驗(yàn)室,還聯(lián)合開發(fā)并推出騰訊云首款星星海四路服務(wù)器。在軟件層面,騰訊以英特爾AI軟件棧優(yōu)化為基礎(chǔ)上線了Open Vino?推理加速引擎,也成為業(yè)內(nèi)第一個支持Analytics Zoo 的公有云廠商。
在智能語音領(lǐng)域,英特爾還將與騰訊開展更加深度的合作,結(jié)合英特爾先進(jìn)的軟硬件技術(shù),將智能化應(yīng)用拓展到更多的業(yè)務(wù)場景中去。不僅如此,雙方還會在語音識別、聲紋識別等其他AI領(lǐng)域共同開發(fā),賦能各行業(yè)智能化升級,并不斷擴(kuò)大智能生態(tài)圈。
在更大范圍內(nèi),包括人工智能領(lǐng)域,英特爾憑借新一代至強(qiáng)平臺強(qiáng)大的基礎(chǔ)設(shè)施能力,也將與騰訊一起在數(shù)據(jù)上云、高性能計(jì)算、數(shù)據(jù)安全等方面為用戶提供敏捷、高效、穩(wěn)定的數(shù)字服務(wù),幫助用戶更快進(jìn)行業(yè)務(wù)升級,并聯(lián)合共建廣泛的數(shù)字生態(tài)圈。
英特爾正在與合作伙伴共同推進(jìn)技術(shù)進(jìn)步。從云小微平臺,英特爾與騰訊的聯(lián)合創(chuàng)新讓智能語音合成變得有效且高效;在云小微平臺之外,可以看到的是更加繁榮的人工智能市場以及英特爾全力構(gòu)建的數(shù)字生態(tài)圈。