《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 小米開(kāi)源人車(chē)家生態(tài)戰(zhàn)略關(guān)鍵技術(shù)組件

小米開(kāi)源人車(chē)家生態(tài)戰(zhàn)略關(guān)鍵技術(shù)組件

2025-08-05
來(lái)源:快科技
關(guān)鍵詞: 小米 大模型

8月4日消息,小米正式發(fā)布并開(kāi)源聲音理解大模型MiDashengLM-7B,該模型是小米“人車(chē)家全生態(tài)”戰(zhàn)略的關(guān)鍵技術(shù)組件。

MiDashengLM通過(guò)統(tǒng)一理解語(yǔ)音、環(huán)境聲與音樂(lè)的跨領(lǐng)域能力,不僅能聽(tīng)懂用戶(hù)周?chē)l(fā)生了什么事情,還能分析發(fā)現(xiàn)這些事情的隱藏含義,提高用戶(hù)場(chǎng)景理解的泛化性。

1.jpg

基于MiDashengLM的模型通過(guò)自然語(yǔ)言和用戶(hù)交互,為用戶(hù)提更人性化的溝通和反饋,比如在用戶(hù)練習(xí)唱歌或練習(xí)外語(yǔ)時(shí)提供發(fā)音反饋并制定針對(duì)性提升方案,又比如在用戶(hù)駕駛車(chē)輛時(shí)實(shí)時(shí)對(duì)用戶(hù)關(guān)于環(huán)境聲音的提問(wèn)做出解答,其應(yīng)用場(chǎng)景有廣闊的空間。

結(jié)合高效的推理部署性能,MiDashengLM將廣泛賦能智能座艙、智能家居等場(chǎng)景,推動(dòng)多模態(tài)交互體驗(yàn)升級(jí)。

2.png

基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器構(gòu)建,通過(guò)通用音頻描述訓(xùn)練策略,實(shí)現(xiàn)對(duì)語(yǔ)音、環(huán)境聲音和音樂(lè)的統(tǒng)一理解。

訓(xùn)練數(shù)據(jù)100%來(lái)自公開(kāi)數(shù)據(jù)集,涵蓋五大類(lèi)110萬(wàn)小時(shí)資源,以Apache License 2.0協(xié)議發(fā)布,支持學(xué)術(shù)和商業(yè)應(yīng)用。

3.png

核心優(yōu)勢(shì):

性能領(lǐng)先:在22個(gè)公開(kāi)評(píng)測(cè)集上刷新多模態(tài)大模型最好成績(jī)(SOTA),在音頻描述、聲音理解、音頻問(wèn)答任務(wù)中表現(xiàn)突出,同時(shí)具備可用的語(yǔ)音識(shí)別能力。其音頻編碼器Xiaomi Dasheng在X-ARES Benchmark多項(xiàng)關(guān)鍵任務(wù),尤其是非語(yǔ)音類(lèi)理解任務(wù)上顯著優(yōu)于Whisper。

推理效率高:?jiǎn)螛颖就评淼氖譚oken延遲(TTFT)僅為業(yè)界先進(jìn)模型的1/4;同等顯存下數(shù)據(jù)吞吐效率是業(yè)界先進(jìn)模型的20倍以上,80GB GPU上處理30秒音頻并生成100個(gè)token時(shí),batch size可達(dá)512,而同類(lèi)模型在batch size 16時(shí)即顯存溢出。

訓(xùn)練范式革新:采用通用音頻描述對(duì)齊范式,通過(guò)非單調(diào)全局語(yǔ)義映射,學(xué)習(xí)音頻場(chǎng)景深層語(yǔ)義關(guān)聯(lián),避免傳統(tǒng)ASR轉(zhuǎn)錄數(shù)據(jù)對(duì)齊的局限,數(shù)據(jù)利用率高,還能捕捉說(shuō)話(huà)人情感、空間混響等關(guān)鍵聲學(xué)特征。

4.png


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀(guān)點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。