123,123,123

清华大学基础模型研究中心发布SuperBench九月综合榜单

山海大模型开创全球AI智能新篇章

日期： 2024-09-30

來(lái)源：极客网

關(guān)鍵詞： 清华大学 SuperBench 山海大模型 AI

近日，國(guó)內(nèi)人工智能權(quán)威機(jī)構(gòu)清華大學(xué)基礎(chǔ)模型研究中心發(fā)布SuperBench九月綜合榜單。本次評(píng)測(cè)選取海內(nèi)外24個(gè)具有代表性的大模型，結(jié)果顯示，山海大模型對(duì)齊、智能體、安全等多項(xiàng)能力全球領(lǐng)跑。

持續(xù)升級(jí)，多項(xiàng)能力全球領(lǐng)跑

作為國(guó)內(nèi)權(quán)威通用大模型綜合性測(cè)評(píng)基準(zhǔn)，SuperBench由清華大學(xué)人工智能研究院基礎(chǔ)模型研究中心聯(lián)合中國(guó)人民大學(xué)、中關(guān)村實(shí)驗(yàn)室共同發(fā)起，旨在為大模型領(lǐng)域提供一套客觀、科學(xué)的評(píng)測(cè)標(biāo)準(zhǔn)，促進(jìn)大模型技術(shù)、應(yīng)用和生態(tài)健康發(fā)展。

此次SuperBench評(píng)測(cè)數(shù)據(jù)集包含語(yǔ)義、對(duì)齊、代碼、智能體、安全、數(shù)理邏輯和指令遵循，共涵蓋七大類，32個(gè)子類。評(píng)測(cè)數(shù)據(jù)顯示：

在人類對(duì)齊能力評(píng)測(cè)中，山海大模型3.0得分8.21分，排名全球第五、國(guó)內(nèi)第二。其中，山海大模型在中文語(yǔ)言方面的表現(xiàn)極為出色，以8.41分的成績(jī)與o1-preview并列全球第二。在中文語(yǔ)言細(xì)分項(xiàng)中，山海大模型在基本任務(wù)、綜合問(wèn)答、文本寫作3項(xiàng)分類評(píng)測(cè)中均躋身Top3，并在文本寫作評(píng)測(cè)中榮獲第一。

在智能體能力評(píng)測(cè)中，山海大模型3.0得分3.44分，排名全球第七、國(guó)內(nèi)第五。其中，山海大模型在網(wǎng)絡(luò)購(gòu)物方面的表現(xiàn)超過(guò)70分，位列全球第二，對(duì)比國(guó)外模型領(lǐng)先優(yōu)勢(shì)明顯。

在安全和價(jià)值觀能力評(píng)測(cè)中，山海大模型3.0得分89.4分，位居全球第二。其中，山海大模型在倫理道德、攻擊冒犯、身體健康、隱私財(cái)產(chǎn)四個(gè)細(xì)分評(píng)測(cè)項(xiàng)中均位列三甲，并在身體健康和隱私財(cái)產(chǎn)評(píng)測(cè)中獲得第一。

自2023年5月問(wèn)世以來(lái)，山海大模型已相繼在OpenCompass大模型評(píng)測(cè)、SuperCLUE中文大模型基準(zhǔn)測(cè)評(píng)、MedBench評(píng)測(cè)、Flageval大模型評(píng)測(cè)等多個(gè)權(quán)威評(píng)測(cè)中屢創(chuàng)佳績(jī)，充分展現(xiàn)出業(yè)界一流的通用能力和領(lǐng)先于世界的行業(yè)大模型能力。

此次評(píng)測(cè)，是山海大模型綜合能力的又一次集中展現(xiàn)，也標(biāo)志著其技術(shù)迭代和創(chuàng)新發(fā)展達(dá)到了一個(gè)新的高度。

加速落地，擁抱更多應(yīng)用場(chǎng)景

大模型必須結(jié)合實(shí)際場(chǎng)景才能真正創(chuàng)造價(jià)值。作為大模型產(chǎn)業(yè)化落地的先行者，云知聲也在積極推動(dòng)山海大模型與具體行業(yè)場(chǎng)景的深度結(jié)合，將理論中的技術(shù)創(chuàng)新轉(zhuǎn)化為新質(zhì)生產(chǎn)力，為各行各業(yè)帶來(lái)前所未有的效率提升和價(jià)值創(chuàng)造。

目前，山海大模型已在智慧醫(yī)療、智慧座艙、智慧交通、智慧營(yíng)銷、智慧政務(wù)、智慧司法等場(chǎng)景實(shí)現(xiàn)落地應(yīng)用。

在智慧醫(yī)療領(lǐng)域，云知聲基于山海大模型，打造門診病歷生成系統(tǒng)、手術(shù)病歷撰寫助手、商保智能理賠系統(tǒng)等醫(yī)療產(chǎn)品，專注醫(yī)療服務(wù)提質(zhì)增效，為患者帶來(lái)更優(yōu)質(zhì)均衡的醫(yī)療體驗(yàn)。例如，針對(duì)門診場(chǎng)景中的病歷撰寫需求，門診病歷生成系統(tǒng)可實(shí)現(xiàn)診室復(fù)雜環(huán)境下的降噪、醫(yī)患角色區(qū)分、信息摘要及病歷自動(dòng)生成等功能，有效提升病歷書寫效率，切實(shí)為醫(yī)務(wù)人員減負(fù)。目前，門診病歷生成系統(tǒng)已在北京友誼醫(yī)院上線應(yīng)用，得到院方的高度認(rèn)可和一致好評(píng)。

在智慧座艙領(lǐng)域，云知聲依托山海大模型重構(gòu)語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成的全鏈路語(yǔ)音方案，基于大模型的理解與生成能力，賦能用車、出游、主動(dòng)關(guān)懷、健康、通用聊天等多個(gè)細(xì)分場(chǎng)景，讓座艙體驗(yàn)從簡(jiǎn)單的語(yǔ)音交互邁向全面智能的個(gè)性化交互。

在智慧交通領(lǐng)域，云知聲以山海大模型為核心，數(shù)據(jù)和創(chuàng)新為兩大引擎，云知聲構(gòu)建起覆蓋軌道交通、公交交通、航空交通、交通樞紐、道路交通等多個(gè)細(xì)分場(chǎng)景的智慧大交通全景圖，全方位、多維度賦能交通產(chǎn)業(yè)，驅(qū)動(dòng)城市交通向智能化、高效化方向邁進(jìn)。目前，包括廈門高崎機(jī)場(chǎng)數(shù)智客服、廈門地鐵智能客服系統(tǒng)、南寧火車東站智慧客服屏、青島全息屏智能交互服務(wù)終端等在內(nèi)的多款交通創(chuàng)新應(yīng)用已投入使用，共同引領(lǐng)未來(lái)交通出行新體驗(yàn)。

在智慧營(yíng)銷領(lǐng)域，云知聲基于山海大模型，融合積累多年的智能語(yǔ)音技術(shù)，打造藍(lán)藻AI內(nèi)容創(chuàng)作平臺(tái)，為用戶提供AI聲音克隆、AI文字配音、AI文案創(chuàng)作、AI智播等服務(wù)，助力內(nèi)容生產(chǎn)更快，更好，更具個(gè)性化，打造內(nèi)容營(yíng)銷新質(zhì)生產(chǎn)力。

隨著技術(shù)提升和應(yīng)用場(chǎng)景的不斷拓展，未來(lái)大模型市場(chǎng)競(jìng)爭(zhēng)將持續(xù)加劇，進(jìn)一步推動(dòng)技術(shù)創(chuàng)新和產(chǎn)業(yè)升級(jí)。接下來(lái)，云知聲將繼續(xù)保持大模型能力穩(wěn)步提升，以山海為抓手，在產(chǎn)業(yè)側(cè)實(shí)現(xiàn)加速落地，引領(lǐng)千行百業(yè)向更智能、更高效、更可持續(xù)的方向發(fā)展。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

清华大学基础模型研究中心发布SuperBench九月综合榜单

日期： 2024-09-30

來(lái)源：极客网

相關(guān)內(nèi)容