123,123

摩爾線程大模型對(duì)齊研究獲國際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

URPO框架入選AAAI 2026

日期： 2025-11-14

來源：IT之家

關(guān)鍵詞： 摩爾線程 AI芯片 GPU 大語言模型 URPO

11 月 13 日消息，摩爾線程提出的新一代大語言模型對(duì)齊框架 —— URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化，相關(guān)研究論文近日被人工智能領(lǐng)域的國際頂級(jí)學(xué)術(shù)會(huì)議 AAAI 2026 收錄，為簡(jiǎn)化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

format,f_avif.avif.jpg

▲ 圖源：摩爾線程官方公眾號(hào) | URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化框架

據(jù)介紹，在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中，摩爾線程 AI 研究團(tuán)隊(duì)提出了 URPO 統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化框架，將“指令遵循”（選手）和“獎(jiǎng)勵(lì)評(píng)判”（裁判）兩大角色融合于單一模型中，并在統(tǒng)一訓(xùn)練階段實(shí)現(xiàn)同步優(yōu)化。URPO 從以下三方面攻克技術(shù)挑戰(zhàn)：

數(shù)據(jù)格式統(tǒng)一：將異構(gòu)的偏好數(shù)據(jù)、可驗(yàn)證推理數(shù)據(jù)和開放式指令數(shù)據(jù)，統(tǒng)一重構(gòu)為適用于 GRPO 訓(xùn)練的信號(hào)格式。

自我獎(jiǎng)勵(lì)循環(huán)：針對(duì)開放式指令，模型生成多個(gè)候選回答后，自主調(diào)用其“裁判”角色進(jìn)行評(píng)分，并將結(jié)果作為 GRPO 訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)，形成一個(gè)高效的自我改進(jìn)循環(huán)。

協(xié)同進(jìn)化機(jī)制：通過在同一批次中混合處理三類數(shù)據(jù)，模型的生成能力與評(píng)判能力得以協(xié)同進(jìn)化。生成能力提升帶動(dòng)評(píng)判更精準(zhǔn)，而精準(zhǔn)評(píng)判進(jìn)一步引導(dǎo)生成質(zhì)量躍升，從而突破靜態(tài)獎(jiǎng)勵(lì)模型的性能瓶頸。

實(shí)驗(yàn)結(jié)果顯示，基于 Qwen2.5-7B 模型，URPO 框架超越依賴獨(dú)立獎(jiǎng)勵(lì)模型的傳統(tǒng)基線：在 AlpacaEval 指令跟隨榜單上，得分從 42.24 提升至 44.84；在綜合推理能力測(cè)試中，平均分從 32.66 提升至 35.66。作為訓(xùn)練的“副產(chǎn)品”，該模型內(nèi)部自然涌現(xiàn)出的評(píng)判能力在 RewardBench 獎(jiǎng)勵(lì)模型評(píng)測(cè)中取得 85.15 的高分，表現(xiàn)優(yōu)于其替代的專用獎(jiǎng)勵(lì)模型（83.55 分）。

從摩爾線程官方獲悉，目前，URPO 已在摩爾線程自研計(jì)算卡上實(shí)現(xiàn)穩(wěn)定高效運(yùn)行。同時(shí)，摩爾線程已完成 VERL 等主流強(qiáng)化學(xué)習(xí)框架的深度適配

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

摩爾線程大模型對(duì)齊研究獲國際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

日期： 2025-11-14

來源：IT之家

相關(guān)內(nèi)容