123,123,123

智源指数CUGE发布，AI大模型有了评测新基准

日期： 2021-12-31

來(lái)源：人民微看点

關(guān)鍵詞： 智源指数 CUGE AI

人工智能大模型方興未艾，評(píng)測(cè)基準(zhǔn)成為大模型發(fā)展的風(fēng)向標(biāo)。在北京智源人工智能研究院（以下簡(jiǎn)稱“智源研究院”）近日舉行的自然語(yǔ)言處理（簡(jiǎn)稱NLP）重大研究方向前沿技術(shù)開(kāi)放日活動(dòng)上，中文語(yǔ)言理解和生成的評(píng)測(cè)新基準(zhǔn)——智源指數(shù)發(fā)布。

近些年來(lái)，英文評(píng)測(cè)基準(zhǔn)GLUE等評(píng)測(cè)基準(zhǔn)成為衡量大模型語(yǔ)言智能進(jìn)展的重要標(biāo)準(zhǔn)，受到學(xué)界和業(yè)界的廣泛關(guān)注。但是，GLUE只評(píng)測(cè)語(yǔ)言理解能力，而忽略語(yǔ)言生成、多語(yǔ)言、數(shù)學(xué)推理等重要語(yǔ)言能力；只提供數(shù)據(jù)集得分和總體得分，并且總體得分容易受到少數(shù)數(shù)據(jù)集的主導(dǎo)。

從扁平到全面系統(tǒng)，從簡(jiǎn)化到多重維度，智源指數(shù)CUGE旨在嘗試為大模型評(píng)測(cè)設(shè)計(jì)一張全面評(píng)估綜合能力的新考卷。

在基準(zhǔn)框架上，智源指數(shù)不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式，根據(jù)人類(lèi)語(yǔ)言考試大綱和當(dāng)前NLP研究現(xiàn)狀，以語(yǔ)言能力-任務(wù)-數(shù)據(jù)集的分層框架來(lái)選擇和組織數(shù)據(jù)集，涵蓋7種重要的語(yǔ)言能力、17個(gè)主流NLP任務(wù)和19個(gè)代表性數(shù)據(jù)集，全面均衡，避免“偏科選拔”。

在評(píng)分策略上，智源指數(shù)能更好展現(xiàn)模型不同維度的模型語(yǔ)言智能差異，依托層次性基準(zhǔn)框架，提供不同層次的模型性能評(píng)分，包括在數(shù)據(jù)集、任務(wù)和語(yǔ)言能力等，系統(tǒng)性大大加強(qiáng)。

為了促進(jìn)智源指數(shù)的共建共享，提升智源指數(shù)的易用性，本次活動(dòng)還同時(shí)發(fā)布了在線評(píng)測(cè)平臺(tái)和公開(kāi)排行榜，支持多種展示模式，包含綜合榜、精簡(jiǎn)榜和單數(shù)據(jù)集榜，方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動(dòng)態(tài)。

發(fā)布僅是起點(diǎn)，發(fā)展還需生態(tài)共建——清華大學(xué)副教授、智源青年科學(xué)家、智源指數(shù)建設(shè)骨干成員劉知遠(yuǎn)說(shuō)：“基于單數(shù)據(jù)集的榜單能力，未來(lái)智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。同時(shí)，我們還將依托智源研究院、智源社區(qū)的力量，建立用戶面向數(shù)據(jù)集和評(píng)測(cè)結(jié)果的反饋、討論機(jī)制，構(gòu)建起中文高質(zhì)量數(shù)據(jù)集社區(qū)，推動(dòng)中文自然語(yǔ)言處理的發(fā)展?！?/p>

在智源研究院的支持下，自然語(yǔ)言處理重大研究方向?qū)W者團(tuán)隊(duì)積極探索自然語(yǔ)言處理新格局，通過(guò)大數(shù)據(jù)與富知識(shí)雙輪驅(qū)動(dòng)，并通過(guò)與跨模態(tài)信息進(jìn)行交互，顯著提升以自然語(yǔ)言為核心的中文語(yǔ)義理解與生成能力。

落地應(yīng)用方面，清華大學(xué)李涓子教授團(tuán)隊(duì)構(gòu)建的“多模態(tài)北京旅游知識(shí)圖譜”可以為路徑規(guī)劃和景點(diǎn)信息查詢等功能提供數(shù)據(jù)支持，為游客進(jìn)行旅游行程的規(guī)劃。

據(jù)悉，智源指數(shù)受到北京智源人工智能研究院的支持，工作委員單位由清華大學(xué)、北京大學(xué)、人民大學(xué)、中國(guó)科學(xué)院、北京語(yǔ)言大學(xué)、復(fù)旦大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、蘇州大學(xué)、大連理工大學(xué)、山西大學(xué)、京東研究院組成。

最后文章空三行圖片.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

智源指数CUGE发布，AI大模型有了评测新基准

日期： 2021-12-31

來(lái)源：人民微看点

相關(guān)內(nèi)容