人工智能大模型方興未艾,評測基準成為大模型發(fā)展的風向標。在北京智源人工智能研究院(以下簡稱“智源研究院”)近日舉行的自然語言處理(簡稱NLP)重大研究方向前沿技術開放日活動上,中文語言理解和生成的評測新基準——智源指數(shù)發(fā)布。
近些年來,英文評測基準GLUE等評測基準成為衡量大模型語言智能進展的重要標準,受到學界和業(yè)界的廣泛關注。但是,GLUE只評測語言理解能力,而忽略語言生成、多語言、數(shù)學推理等重要語言能力;只提供數(shù)據(jù)集得分和總體得分,并且總體得分容易受到少數(shù)數(shù)據(jù)集的主導。
從扁平到全面系統(tǒng),從簡化到多重維度,智源指數(shù)CUGE旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。
在基準框架上,智源指數(shù)不同于傳統(tǒng)將常用數(shù)據(jù)集扁平組織的方式,根據(jù)人類語言考試大綱和當前NLP研究現(xiàn)狀,以語言能力-任務-數(shù)據(jù)集的分層框架來選擇和組織數(shù)據(jù)集,涵蓋7種重要的語言能力、17個主流NLP任務和19個代表性數(shù)據(jù)集,全面均衡,避免“偏科選拔”。
在評分策略上,智源指數(shù)能更好展現(xiàn)模型不同維度的模型語言智能差異,依托層次性基準框架,提供不同層次的模型性能評分,包括在數(shù)據(jù)集、任務和語言能力等,系統(tǒng)性大大加強。
為了促進智源指數(shù)的共建共享,提升智源指數(shù)的易用性,本次活動還同時發(fā)布了在線評測平臺和公開排行榜,支持多種展示模式,包含綜合榜、精簡榜和單數(shù)據(jù)集榜,方便用戶快速多角度了解模型和數(shù)據(jù)集特性及最新動態(tài)。
發(fā)布僅是起點,發(fā)展還需生態(tài)共建——清華大學副教授、智源青年科學家、智源指數(shù)建設骨干成員劉知遠說:“基于單數(shù)據(jù)集的榜單能力,未來智源指數(shù)將定期吸納最新優(yōu)秀數(shù)據(jù)集。同時,我們還將依托智源研究院、智源社區(qū)的力量,建立用戶面向數(shù)據(jù)集和評測結果的反饋、討論機制,構建起中文高質量數(shù)據(jù)集社區(qū),推動中文自然語言處理的發(fā)展。”
在智源研究院的支持下,自然語言處理重大研究方向學者團隊積極探索自然語言處理新格局,通過大數(shù)據(jù)與富知識雙輪驅動,并通過與跨模態(tài)信息進行交互,顯著提升以自然語言為核心的中文語義理解與生成能力。
落地應用方面,清華大學李涓子教授團隊構建的“多模態(tài)北京旅游知識圖譜”可以為路徑規(guī)劃和景點信息查詢等功能提供數(shù)據(jù)支持,為游客進行旅游行程的規(guī)劃。
據(jù)悉,智源指數(shù)受到北京智源人工智能研究院的支持,工作委員單位由清華大學、北京大學、人民大學、中國科學院、北京語言大學、復旦大學、哈爾濱工業(yè)大學、上海交通大學、蘇州大學、大連理工大學、山西大學、京東研究院組成。