123,123,123

中国信通院启动AI大模型幻觉评测

总体涉及五种测试维度

日期： 2025-03-20

來(lái)源：IT之家

關(guān)鍵詞： 中国信通院 AI 大模型幻觉

3 月 19 日消息，IT之家從中國(guó)信通院官方微信公眾號(hào)獲悉，為摸清大模型的幻覺(jué)現(xiàn)狀，推動(dòng)大模型應(yīng)用走深走實(shí)，中國(guó)信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測(cè)評(píng)工作，發(fā)起大模型幻覺(jué)測(cè)試。

大模型幻覺(jué)（AI Hallucination）是指模型在生成內(nèi)容或回答問(wèn)題時(shí)，產(chǎn)生了看似合理，實(shí)則與用戶輸入不一致（忠實(shí)性幻覺(jué)）或者不符合事實(shí)（事實(shí)性幻覺(jué)）的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用，大模型幻覺(jué)帶來(lái)的潛在應(yīng)用風(fēng)險(xiǎn)日益加劇，正得到業(yè)界的廣泛關(guān)注。

本輪幻覺(jué)測(cè)試工作將以大語(yǔ)言模型為測(cè)試對(duì)象，涵蓋了事實(shí)性幻覺(jué)和忠實(shí)性幻覺(jué)兩種幻覺(jué)類型，具體測(cè)評(píng)體系如下：

測(cè)試數(shù)據(jù)包含 7000 余條中文測(cè)試樣本，測(cè)試形式包括對(duì)應(yīng)于忠實(shí)性幻覺(jué)檢測(cè)的信息抽取與知識(shí)推理兩類題型，以及對(duì)應(yīng)事實(shí)性幻覺(jué)檢測(cè)的事實(shí)判別題型?？傮w涉及人文科學(xué)、社會(huì)科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)五種測(cè)試維度。

中國(guó)信通院邀請(qǐng)各相關(guān)企業(yè)參與模型測(cè)評(píng)，共同推動(dòng)大模型安全應(yīng)用。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

中国信通院启动AI大模型幻觉评测

日期： 2025-03-20

來(lái)源：IT之家

相關(guān)內(nèi)容