《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 除了秒天秒地的配置,小米10背后的自研AI技術(shù)更值得關(guān)注

除了秒天秒地的配置,小米10背后的自研AI技術(shù)更值得關(guān)注

2020-02-13
來(lái)源:搜狐科技
關(guān)鍵詞: 配置 小米10 自研

  2月13日,預(yù)熱許久的小米10終于正式登場(chǎng)。由于肺炎疫情,這場(chǎng)發(fā)布會(huì)采用了純線上直播的模式,但這絲毫不影響它極高的關(guān)注度。作為國(guó)內(nèi)首款驍龍865旗艦,小米10實(shí)現(xiàn)了自我突破,帶來(lái)了不少驚喜。

1.jpeg

  除了驍龍865處理器、LPDDR5內(nèi)存等亮眼的參數(shù)信息外,小米自研AI技術(shù)展現(xiàn)出的成果同樣值得關(guān)注,它們已經(jīng)滲透到小米產(chǎn)品上的各個(gè)角落,對(duì)相機(jī)、系統(tǒng)、語(yǔ)音等多個(gè)方面的使用體驗(yàn)都產(chǎn)生了深遠(yuǎn)的影響。

  小米AI語(yǔ)音,變得更強(qiáng)了!

  1、小米語(yǔ)音AI技術(shù)在快速普及

  2017年7月的一場(chǎng)小米發(fā)布會(huì)上,小米AI音箱正式發(fā)布,小米開(kāi)啟了自研語(yǔ)音AI技術(shù)在市場(chǎng)上的試水。

  短短兩年多的時(shí)間,小米自研的語(yǔ)音AI技術(shù)已經(jīng)滲透到各個(gè)類型的小米產(chǎn)品中,除了智能音箱,小米手機(jī)、小米電視、小愛(ài)老師等小米產(chǎn)品都配備了“小愛(ài)同學(xué)”。集成了小米語(yǔ)音智能助理的設(shè)備,通過(guò)語(yǔ)音這種新交互方式讓產(chǎn)品使用起來(lái)更加便利。

2.jpeg

  語(yǔ)音交互解放了用戶的雙手,降低了學(xué)習(xí)成本、提升了用戶體驗(yàn),而且增強(qiáng)了產(chǎn)品的競(jìng)爭(zhēng)力。

  2、小米10上的智能助理,更有看點(diǎn)

  目前來(lái)說(shuō),智能手機(jī)上的語(yǔ)音助手發(fā)出的語(yǔ)音都是人工合成的,基本不會(huì)提供個(gè)性化的服務(wù),實(shí)際使用起來(lái)難免感覺(jué)機(jī)械和不自然,和真人發(fā)出的聲音差距還是比較大的。

  而小米10上的一大驚喜就是配備了個(gè)性化語(yǔ)音合成服務(wù)。它采用了最新的合成技術(shù),用戶只需要在安靜環(huán)境下錄制少量的聲音樣本并上傳,服務(wù)器進(jìn)行識(shí)別、訓(xùn)練并建模后,就能獲得定制化的AI語(yǔ)音助手了。

3.jpeg

  別人手機(jī)的語(yǔ)音助理發(fā)出的語(yǔ)音千篇一律,而小米手機(jī)上的小愛(ài)同學(xué)卻能做到千人千音,感覺(jué)就像手機(jī)里有一個(gè)真人助理一樣。

4.jpeg

  3、AI語(yǔ)音技術(shù)上,小米展現(xiàn)了哪些功力?

  市面上主流語(yǔ)音合成技術(shù)有很多不足,具體表現(xiàn)為發(fā)出的語(yǔ)音過(guò)于機(jī)械,像機(jī)器人說(shuō)話一樣,還有就是在中英文混合語(yǔ)音中,雙語(yǔ)切換的停頓節(jié)奏、過(guò)度感覺(jué)也不自然等。

  小米10上的個(gè)性化語(yǔ)音合成服務(wù),則瞄準(zhǔn)了這些問(wèn)題進(jìn)行改進(jìn)。具體來(lái)說(shuō),它的實(shí)現(xiàn)過(guò)程可以分為這么幾步。

  首先,用戶要在安靜的環(huán)境下錄制目標(biāo)聲音;

  然后,系統(tǒng)會(huì)對(duì)采集到的聲音信息進(jìn)行降噪、檢錯(cuò)等處理;

  接著,處理完的目標(biāo)聲音會(huì)被提取特征;

  最后,小米云端服務(wù)器將收集到的信息進(jìn)行在線模型訓(xùn)練、部署,生成語(yǔ)音合成引擎。

5.jpeg

  這個(gè)技術(shù)過(guò)程看起來(lái)比較清晰,但存在很多難點(diǎn)。例如,它對(duì)目標(biāo)聲音的數(shù)據(jù)質(zhì)量要求比較高,在線訓(xùn)練模型費(fèi)時(shí)費(fèi)力以及小數(shù)據(jù)量能否訓(xùn)練出滿意的效果。

  不過(guò),小米已經(jīng)完美地解決了這些問(wèn)題,模型訓(xùn)練耗時(shí)大大縮短,用戶完成整個(gè)過(guò)程只要20-30分鐘,此外,它的合成效果穩(wěn)定,甚至沒(méi)有英文語(yǔ)料的情況下,也能合成簡(jiǎn)單的英文語(yǔ)音。

  AI加持,小米10把相機(jī)玩出了新花樣

  相機(jī)方面的提升是小米10系列最重要的賣點(diǎn)之一,1億像素、四顆后置鏡頭等都吸引了無(wú)數(shù)人的關(guān)注。除了硬件上瘋狂堆料外,小米10的相機(jī)也展現(xiàn)出了軟件算法上的功力。

  1、小米10換天更強(qiáng)了

  小米CC9的“一鍵換天”功能得到了很多用戶的歡迎,照片拍好后,只需要在編輯選項(xiàng)中輕輕一點(diǎn),就能把照片中的天空換成自己想要的效果,例如晴天、夕陽(yáng)、暮光等。

6.jpeg

  這次小米10換天功能在之前的基礎(chǔ)上,新增了雨天和雪天,更為強(qiáng)大。從小米的演示對(duì)比來(lái)看,它在和各類第三方APP PK中大獲全勝,換天效果非常自然,基本能達(dá)到以假亂真的程度。

7.jpeg

  小米10換天功能背后,是小米在視覺(jué)成像技術(shù)上的持續(xù)投入。MIUI 10推出時(shí),就帶來(lái)了AI自拍虛化的功能,單攝相機(jī)也能有人像虛化效果,就是通過(guò)出色的算法實(shí)現(xiàn)的。

  小米把之前自拍虛化的算法經(jīng)驗(yàn)和技術(shù)運(yùn)用在了換天功能上,標(biāo)注了數(shù)萬(wàn)張實(shí)際拍攝的天空?qǐng)D片進(jìn)行訓(xùn)練,并且優(yōu)化天空分割模型,最終達(dá)到了現(xiàn)在的驚人效果。不得不說(shuō),實(shí)際采集樣張,用AI技術(shù)來(lái)訓(xùn)練模型,相當(dāng)費(fèi)時(shí)費(fèi)力,需要長(zhǎng)期投入大量的成本。

  當(dāng)然,這種算法對(duì)成像的幫助,也不是一般軟件優(yōu)化所能比的。其實(shí),憑借著出色的成像效果秒天秒地的谷歌Pixel系列,在相機(jī)算法上,也是通過(guò)實(shí)際樣張采集訓(xùn)練AI模型的思路。這方面,小米和谷歌想到了一起去。

  2、拍vlog也能一鍵搞定

  短視頻的蓬勃發(fā)展讓vlog流行起來(lái),但一般人想要剪出很酷很精致的vlog并不容易。首先,視頻后期比圖片要復(fù)雜,而且vlog制作還涉及音樂(lè)、字幕、特效等。

  而小米已經(jīng)敏銳地意識(shí)到用戶的需求,投入了多個(gè)團(tuán)隊(duì)來(lái)幫助大家搞定入門vlog。簡(jiǎn)單來(lái)說(shuō),它優(yōu)化了這么幾個(gè)方面。

  首先,自動(dòng)運(yùn)鏡功能讓用戶不動(dòng)手機(jī)也能有出色的效果,不需要學(xué)習(xí)滑軌、手搖等很專業(yè)的技能。不過(guò)具體實(shí)現(xiàn)過(guò)程中,技術(shù)難度不小。

8.png

  自動(dòng)運(yùn)鏡時(shí),視頻每一幀的角度要精準(zhǔn)匹配,還要對(duì)4K分辨率的數(shù)據(jù)做實(shí)時(shí)的縮放、轉(zhuǎn)場(chǎng)等計(jì)算,對(duì)算法的精度有很高的要求和考驗(yàn)。小米AI實(shí)驗(yàn)室通過(guò)算法優(yōu)化和調(diào)校,把CPU、GPU、解碼器等多個(gè)計(jì)算單元結(jié)合,“榨干”了手機(jī)的計(jì)算性能。

9.jpeg

  另外,語(yǔ)音轉(zhuǎn)字幕這個(gè)功能也值得點(diǎn)贊。給視頻手動(dòng)加字幕非常麻煩,有了語(yǔ)音AI技術(shù)后,小米手機(jī)就能把錄制視頻里的語(yǔ)音自動(dòng)轉(zhuǎn)為文本字幕,幫vlog制作者省了很多事情。

  3、文檔掃描這件“小事”,小米10做到了極致

  小米10相機(jī)上另外一個(gè)極具亮點(diǎn)的功能是“小米拍文檔”,它解決了手機(jī)文檔掃描過(guò)程中的諸多痛點(diǎn):邊框識(shí)別不準(zhǔn)、細(xì)節(jié)丟失、顯示不清晰、變形、陰影等。

  小米拍文檔給人印象比較深刻的是AI技術(shù)對(duì)文檔掃描這個(gè)功能的巨大幫助,比如說(shuō)它的裁剪校正能力很強(qiáng),即使拍攝文檔的背景非常雜亂無(wú)章,也能精準(zhǔn)的定位到文檔邊界,并準(zhǔn)確地裁切和矯正文檔區(qū)域,將有干擾的多余元素去除。

  此外,很多時(shí)候,拍攝文檔的環(huán)境光學(xué)不理想,成像區(qū)域一部分很暗、一部分很亮,非常影響最終的掃描效果。小米拍文檔通過(guò)針對(duì)性的陰影消除技術(shù)來(lái)解決問(wèn)題,讓文檔掃描的成功率大大提升。

10.jpeg

  技術(shù)創(chuàng)新鑄就了小米拍文檔的出色體驗(yàn),通過(guò)神經(jīng)網(wǎng)絡(luò)區(qū)分圖像中光照和陰影部分,利用邊緣算法幫助用戶對(duì)文檔進(jìn)行精確定位,并實(shí)際采集多樣化的文檔使用場(chǎng)景進(jìn)行訓(xùn)練優(yōu)化。

  值得一提的是,小米拍文檔完全由小米AI實(shí)驗(yàn)室武漢視覺(jué)團(tuán)隊(duì)獨(dú)立負(fù)責(zé)完成,疫情當(dāng)前,他們的工作和貢獻(xiàn)值得點(diǎn)贊。

11.jpeg

  小米自研AI技術(shù),值得更進(jìn)一步的期待

  這次的小米10發(fā)布會(huì),讓我們看到了很多小米過(guò)去容易被忽視的地方,自研AI技術(shù)就是其中一個(gè)重要的部分。

  首先,小米10為代表的產(chǎn)品展現(xiàn)出了小米在自研AI技術(shù)上的強(qiáng)勁實(shí)力。不管是個(gè)性化語(yǔ)音合成服務(wù)、一鍵換天、vlog自動(dòng)字幕等AI助力的具體功能,還是通過(guò)采集真實(shí)數(shù)據(jù)訓(xùn)練模型的AI研發(fā)思路,都讓我們看到了小米在自研AI技術(shù)上的用心。

  其次,研究AI技術(shù)的廠商很多,但像小米這樣精準(zhǔn)瞄準(zhǔn)用戶體驗(yàn)的,不太多見(jiàn)。前面我們提到的掃描文檔、制作vlog等功能,第三方應(yīng)用其實(shí)都能實(shí)現(xiàn),手機(jī)廠商一般不會(huì)在這些細(xì)節(jié)上下太多的功夫。

12.jpeg

  但這些看起來(lái)不起眼的細(xì)節(jié),都和用戶需求息息相關(guān)。小米把自研AI技術(shù)的成果都投入到這些領(lǐng)域,讓自家用戶能最直接地享受到AI技術(shù)發(fā)展的紅利。小米AI技術(shù)更加注重和用戶體驗(yàn)相關(guān)的場(chǎng)景落地,每個(gè)技術(shù)創(chuàng)新都能找準(zhǔn)用戶的實(shí)際需求、提升用戶體驗(yàn)。當(dāng)然,這種注重用戶體驗(yàn)的基因,從MIUI誕生開(kāi)始就一直存在,現(xiàn)在刻入到了小米的AI技術(shù)研發(fā)中。

  此外,小米涉足的領(lǐng)域遠(yuǎn)不只手機(jī),家電、智能家居、PC等等行業(yè),都能看到小米活躍的身影。而小米的自研AI技術(shù),也不局限于給手機(jī)功能添磚加瓦。未來(lái),我們有望看到小米自研AI技術(shù)未來(lái)在影像、語(yǔ)音、5G、IoT等多個(gè)領(lǐng)域的爆發(fā)成果,這非常值得期待。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。