国产免费一区二区视频麻豆,国产99精品久久久久久妇女迅雷

DeepSeek論文登《自然》封面披露R1訓(xùn)練費(fèi)200萬

日期： 2025-09-18

來源：網(wǎng)易科技

關(guān)鍵詞： Deepseek 推理模型

9月18日消息，由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文，登上了《自然》（Nature）雜志封面。

下載 (1).jpg

論文研究人員表示，DeepSeek強(qiáng)大的AI模型R1之所以能成功，并不依賴于使用其競(jìng)爭(zhēng)對(duì)手的輸出內(nèi)容進(jìn)行訓(xùn)練。今年一月，R1的發(fā)布曾引發(fā)美國(guó)股市暴跌。這一聲明出自今天發(fā)表于《自然》（Nature）雜志的一篇經(jīng)同行評(píng)議的R1模型論文的附帶文件中。

無標(biāo)題.png

R1旨在出色地完成數(shù)學(xué)和編程等“推理”任務(wù)，是美國(guó)科技公司所開發(fā)工具的一個(gè)更廉價(jià)的競(jìng)爭(zhēng)對(duì)手。作為一個(gè)“開放權(quán)重”（open weight）模型，任何人都可以下載它，并且它也是迄今為止在AI社區(qū)平臺(tái)Hugging Face上最受歡迎的此類模型，下載量已達(dá)1090萬次。

這篇論文是對(duì)今年一月所發(fā)布的一份預(yù)印本的更新，該預(yù)印本描述了DeepSeek如何增強(qiáng)一個(gè)標(biāo)準(zhǔn)的大語(yǔ)言模型（Large Language Model, LLM）以處理推理任務(wù)。其補(bǔ)充材料首次披露了R1的增量訓(xùn)練成本僅相當(dāng)于29.4萬美元。這筆費(fèi)用是在該公司（總部位于杭州）為構(gòu)建R1所基于的基礎(chǔ)大語(yǔ)言模型而花費(fèi)的約600萬美元之外的，但總金額仍遠(yuǎn)低于競(jìng)爭(zhēng)對(duì)手模型據(jù)信高達(dá)數(shù)千萬美元的成本。DeepSeek表示，R1主要是在英偉達(dá)的H800芯片上進(jìn)行訓(xùn)練的，而根據(jù)美國(guó)的出口管制規(guī)定，該芯片自2023年起已被禁止向中國(guó)銷售。

嚴(yán)格的同行評(píng)審

R1被認(rèn)為是首個(gè)經(jīng)歷同行評(píng)議過程的主流大語(yǔ)言模型。“這是一個(gè)非常值得歡迎的先例，”Hugging Face的機(jī)器學(xué)習(xí)工程師劉易斯·坦斯托爾（Lewis Tunstall）說，他也是這篇《自然》論文的審稿人之一。“如果我們沒有這種公開分享大部分流程的規(guī)范，就很難評(píng)估這些系統(tǒng)是否存在風(fēng)險(xiǎn)?！?/p>

為回應(yīng)同行評(píng)議的意見，DeepSeek團(tuán)隊(duì)減少了其描述中的擬人化用語(yǔ)，并補(bǔ)充了技術(shù)細(xì)節(jié)的說明，包括模型訓(xùn)練所用的數(shù)據(jù)類型及其安全性?！敖?jīng)歷一個(gè)嚴(yán)格的同行評(píng)議過程，無疑有助于驗(yàn)證模型的有效性和實(shí)用性，”位于哥倫布市的俄亥俄州立大學(xué)AI研究員孫歡（Huan Sun）說。“其他公司也應(yīng)該這樣做?！?/p>

DeepSeek的主要?jiǎng)?chuàng)新在于，它使用了一種自動(dòng)化的“試錯(cuò)法”，即純粹的強(qiáng)化學(xué)習(xí)（pure reinforcement learning），來創(chuàng)建R1。這個(gè)過程是通過獎(jiǎng)勵(lì)模型得出正確答案的方式進(jìn)行，而不是教它遵循人類挑選的推理范例。該公司表示，其模型正是通過這種方式學(xué)會(huì)了自身的類推理策略，例如如何在不遵循人類預(yù)設(shè)策略的情況下驗(yàn)證其解題過程。為提高效率，該模型還使用了被稱為“組相對(duì)策略優(yōu)化”（group relative policy optimization）的技術(shù)，即利用估算值為自身的嘗試打分，而不是另外采用一個(gè)獨(dú)立的算法來做這件事。

孫歡表示，該模型在AI研究人員中“相當(dāng)有影響力”?！?025年迄今為止，幾乎所有在大語(yǔ)言模型中進(jìn)行強(qiáng)化學(xué)習(xí)的研究，都可能或多或少地受到了R1的啟發(fā)?！?/p>

關(guān)于訓(xùn)練方式的爭(zhēng)議

今年一月的媒體報(bào)道曾暗示，OpenAI研究人員認(rèn)為，DeepSeek利用了OpenAI模型的輸出來訓(xùn)練R1，這種方法可以在使用較少資源的情況下加速模型能力的提升。

DeepSeek并未在其論文中公布其訓(xùn)練數(shù)據(jù)。但是，在與審稿人的交流中，該公司的研究人員聲明，R1并非通過復(fù)制OpenAI模型生成的推理范例來學(xué)習(xí)的。不過他們承認(rèn)，與大多數(shù)其他大語(yǔ)言模型一樣，R1的基礎(chǔ)模型是在海量網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練的，因此它會(huì)吸收互聯(lián)網(wǎng)上已有的任何AI生成內(nèi)容。

孫歡認(rèn)為，這一反駁“與我們?cè)谌魏纬霭嫖镏心芸吹降恼f法一樣有說服力”。坦斯托爾補(bǔ)充說，盡管他無法百分之百確定R1沒有在OpenAI的范例上進(jìn)行訓(xùn)練，但其他實(shí)驗(yàn)室的復(fù)現(xiàn)嘗試表明，DeepSeek的這套推理方法可能已經(jīng)足夠好，無需這樣做?！拔艺J(rèn)為現(xiàn)在的證據(jù)相當(dāng)清楚，僅使用純粹的強(qiáng)化學(xué)習(xí)就能獲得非常高的性能，”他說。

孫歡說，對(duì)于研究人員而言，R1仍然非常有競(jìng)爭(zhēng)力。在一項(xiàng)旨在完成分析和可視化數(shù)據(jù)等科學(xué)任務(wù)的挑戰(zhàn)，即ScienceAgentBench基準(zhǔn)測(cè)試中，孫歡及其同事發(fā)現(xiàn)，盡管R1的準(zhǔn)確率并非第一，但從平衡能力與成本的角度來看，它是表現(xiàn)最好的模型之一。

坦斯托爾說，其他研究人員現(xiàn)在正嘗試應(yīng)用創(chuàng)建R1所用的方法，來提高現(xiàn)有大語(yǔ)言模型的類推理能力，并將其擴(kuò)展到數(shù)學(xué)和編程以外的領(lǐng)域。他補(bǔ)充說，從這個(gè)意義上講，R1“引發(fā)了一場(chǎng)革命”。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

DeepSeek論文登《自然》封面 披露R1訓(xùn)練費(fèi)200萬

日期： 2025-09-18

來源：網(wǎng)易科技

相關(guān)內(nèi)容

DeepSeek論文登《自然》封面披露R1訓(xùn)練費(fèi)200萬