9月18日消息,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了《自然》(Nature)雜志封面。
論文研究人員表示,DeepSeek強大的AI模型R1之所以能成功,并不依賴于使用其競爭對手的輸出內容進行訓練。今年一月,R1的發(fā)布曾引發(fā)美國股市暴跌。這一聲明出自今天發(fā)表于《自然》(Nature)雜志的一篇經同行評議的R1模型論文的附帶文件中。
R1旨在出色地完成數(shù)學和編程等“推理”任務,是美國科技公司所開發(fā)工具的一個更廉價的競爭對手。作為一個“開放權重”(open weight)模型,任何人都可以下載它,并且它也是迄今為止在AI社區(qū)平臺Hugging Face上最受歡迎的此類模型,下載量已達1090萬次。
這篇論文是對今年一月所發(fā)布的一份預印本的更新,該預印本描述了DeepSeek如何增強一個標準的大語言模型(Large Language Model, LLM)以處理推理任務。其補充材料首次披露了R1的增量訓練成本僅相當于29.4萬美元。這筆費用是在該公司(總部位于杭州)為構建R1所基于的基礎大語言模型而花費的約600萬美元之外的,但總金額仍遠低于競爭對手模型據(jù)信高達數(shù)千萬美元的成本。DeepSeek表示,R1主要是在英偉達的H800芯片上進行訓練的,而根據(jù)美國的出口管制規(guī)定,該芯片自2023年起已被禁止向中國銷售。
嚴格的同行評審
R1被認為是首個經歷同行評議過程的主流大語言模型。“這是一個非常值得歡迎的先例,”Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)說,他也是這篇《自然》論文的審稿人之一?!叭绻覀儧]有這種公開分享大部分流程的規(guī)范,就很難評估這些系統(tǒng)是否存在風險?!?/p>
為回應同行評議的意見,DeepSeek團隊減少了其描述中的擬人化用語,并補充了技術細節(jié)的說明,包括模型訓練所用的數(shù)據(jù)類型及其安全性?!敖洑v一個嚴格的同行評議過程,無疑有助于驗證模型的有效性和實用性,”位于哥倫布市的俄亥俄州立大學AI研究員孫歡(Huan Sun)說?!捌渌疽矐撨@樣做?!?/p>
DeepSeek的主要創(chuàng)新在于,它使用了一種自動化的“試錯法”,即純粹的強化學習(pure reinforcement learning),來創(chuàng)建R1。這個過程是通過獎勵模型得出正確答案的方式進行,而不是教它遵循人類挑選的推理范例。該公司表示,其模型正是通過這種方式學會了自身的類推理策略,例如如何在不遵循人類預設策略的情況下驗證其解題過程。為提高效率,該模型還使用了被稱為“組相對策略優(yōu)化”(group relative policy optimization)的技術,即利用估算值為自身的嘗試打分,而不是另外采用一個獨立的算法來做這件事。
孫歡表示,該模型在AI研究人員中“相當有影響力”?!?025年迄今為止,幾乎所有在大語言模型中進行強化學習的研究,都可能或多或少地受到了R1的啟發(fā)?!?/p>
關于訓練方式的爭議
今年一月的媒體報道曾暗示,OpenAI研究人員認為,DeepSeek利用了OpenAI模型的輸出來訓練R1,這種方法可以在使用較少資源的情況下加速模型能力的提升。
DeepSeek并未在其論文中公布其訓練數(shù)據(jù)。但是,在與審稿人的交流中,該公司的研究人員聲明,R1并非通過復制OpenAI模型生成的推理范例來學習的。不過他們承認,與大多數(shù)其他大語言模型一樣,R1的基礎模型是在海量網絡數(shù)據(jù)上訓練的,因此它會吸收互聯(lián)網上已有的任何AI生成內容。
孫歡認為,這一反駁“與我們在任何出版物中能看到的說法一樣有說服力”。坦斯托爾補充說,盡管他無法百分之百確定R1沒有在OpenAI的范例上進行訓練,但其他實驗室的復現(xiàn)嘗試表明,DeepSeek的這套推理方法可能已經足夠好,無需這樣做。“我認為現(xiàn)在的證據(jù)相當清楚,僅使用純粹的強化學習就能獲得非常高的性能,”他說。
孫歡說,對于研究人員而言,R1仍然非常有競爭力。在一項旨在完成分析和可視化數(shù)據(jù)等科學任務的挑戰(zhàn),即ScienceAgentBench基準測試中,孫歡及其同事發(fā)現(xiàn),盡管R1的準確率并非第一,但從平衡能力與成本的角度來看,它是表現(xiàn)最好的模型之一。
坦斯托爾說,其他研究人員現(xiàn)在正嘗試應用創(chuàng)建R1所用的方法,來提高現(xiàn)有大語言模型的類推理能力,并將其擴展到數(shù)學和編程以外的領域。他補充說,從這個意義上講,R1“引發(fā)了一場革命”。