《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 摩爾線程大模型對(duì)齊研究獲國際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

摩爾線程大模型對(duì)齊研究獲國際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

URPO框架入選AAAI 2026
2025-11-14
來源:IT之家

11 月 13 日消息,摩爾線程提出的新一代大語言模型對(duì)齊框架 —— URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文近日被人工智能領(lǐng)域的國際頂級(jí)學(xué)術(shù)會(huì)議 AAAI 2026 收錄,為簡化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

format,f_avif.avif.jpg

▲ 圖源:摩爾線程官方公眾號(hào) | URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化框架

據(jù)介紹,在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線程 AI 研究團(tuán)隊(duì)提出了 URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化框架,將“指令遵循”(選手)和“獎(jiǎng)勵(lì)評(píng)判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓(xùn)練階段實(shí)現(xiàn)同步優(yōu)化。URPO 從以下三方面攻克技術(shù)挑戰(zhàn):

數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗(yàn)證推理數(shù)據(jù)和開放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于 GRPO 訓(xùn)練的信號(hào)格式。

自我獎(jiǎng)勵(lì)循環(huán):針對(duì)開放式指令,模型生成多個(gè)候選回答后,自主調(diào)用其“裁判”角色進(jìn)行評(píng)分,并將結(jié)果作為 GRPO 訓(xùn)練的獎(jiǎng)勵(lì)信號(hào),形成一個(gè)高效的自我改進(jìn)循環(huán)。

協(xié)同進(jìn)化機(jī)制:通過在同一批次中混合處理三類數(shù)據(jù),模型的生成能力與評(píng)判能力得以協(xié)同進(jìn)化。生成能力提升帶動(dòng)評(píng)判更精準(zhǔn),而精準(zhǔn)評(píng)判進(jìn)一步引導(dǎo)生成質(zhì)量躍升,從而突破靜態(tài)獎(jiǎng)勵(lì)模型的性能瓶頸。

實(shí)驗(yàn)結(jié)果顯示,基于 Qwen2.5-7B 模型,URPO 框架超越依賴獨(dú)立獎(jiǎng)勵(lì)模型的傳統(tǒng)基線:在 AlpacaEval 指令跟隨榜單上,得分從 42.24 提升至 44.84;在綜合推理能力測試中,平均分從 32.66 提升至 35.66。作為訓(xùn)練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出的評(píng)判能力在 RewardBench 獎(jiǎng)勵(lì)模型評(píng)測中取得 85.15 的高分,表現(xiàn)優(yōu)于其替代的專用獎(jiǎng)勵(lì)模型(83.55 分)。

從摩爾線程官方獲悉,目前,URPO 已在摩爾線程自研計(jì)算卡上實(shí)現(xiàn)穩(wěn)定高效運(yùn)行。同時(shí),摩爾線程已完成 VERL 等主流強(qiáng)化學(xué)習(xí)框架的深度適配


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。