中文国产成人精品久久app,曰韩精品

【ChatGPT專(zhuān)題】ChatGPT關(guān)鍵技術(shù)之RLHF簡(jiǎn)介

日期： 2023-02-15

來(lái)源：?jiǎn)⒚餍浅胶诵募夹g(shù)研究

關(guān)鍵詞： ChatGPT RLHF OpenAI

　　帶有人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）是一種訓(xùn)練大型語(yǔ)言模型（LLM）的新技術(shù)，對(duì)OpenAI的ChatGPT模型、DeepMind的Sparrow、Anthropic的Claude等都至關(guān)重要。不是僅僅訓(xùn)練LLM來(lái)預(yù)測(cè)下一個(gè)單詞，而是訓(xùn)練它們理解指令并產(chǎn)生有用的回應(yīng)。Surge AI的官方博客發(fā)表了一篇文章對(duì)RLHF技術(shù)進(jìn)行了簡(jiǎn)介，文章首先給出一些例子對(duì)比了沒(méi)有使用RLHF技術(shù)訓(xùn)練的LLM與使用了RLHF技術(shù)訓(xùn)練的LLM的差異，然后簡(jiǎn)要描述了RLHF技術(shù)的主要步驟。

　　RLHF使用與否的差異

　　文章給出3個(gè)例子，分別是讓LLM寫(xiě)一封郵件、做數(shù)學(xué)運(yùn)算和生成代碼。以下是RLHF使用與否的對(duì)比結(jié)果（左側(cè)未使用RLFH，右側(cè)使用），很容易看出使用RLHF訓(xùn)練的LLM輸出的結(jié)果明顯優(yōu)于未使用時(shí)的情形。

　　微信截圖_20230215172543.png

　　RLHF的主要步驟

　　RLHF技術(shù)主要分為如下4個(gè)步驟。

　　無(wú)監(jiān)督預(yù)訓(xùn)練

　　可以從一個(gè)預(yù)訓(xùn)練好的語(yǔ)言模型開(kāi)始，比如GPT-3。

　　有監(jiān)督的微調(diào)

　　生成一組指令，以及對(duì)每個(gè)指令的人類(lèi)寫(xiě)的反應(yīng)。換句話說(shuō)，生成一個(gè)由<提示，理想生成>對(duì)組成的訓(xùn)練數(shù)據(jù)集。然后對(duì)預(yù)訓(xùn)練的模型進(jìn)行微調(diào)，以輸出這些人類(lèi)反應(yīng)。

　　訓(xùn)練一個(gè)“人類(lèi)反饋”的獎(jiǎng)勵(lì)模型

　　這一步是建立一個(gè)獎(jiǎng)勵(lì)模型，對(duì)一個(gè)LLM的輸出對(duì)一個(gè)給定的反應(yīng)的好壞進(jìn)行評(píng)分。換句話說(shuō)，獎(jiǎng)勵(lì)模型是另一個(gè)模型（例如，另一個(gè)砍掉了最后幾層的LLM），它將提示和生成作為輸入，并輸出一個(gè)標(biāo)量獎(jiǎng)勵(lì)。

　　再生成一組新的指令，然后生成一組機(jī)器生成的對(duì)這些指令的反應(yīng)，并由人類(lèi)對(duì)其質(zhì)量進(jìn)行評(píng)分或排名。使用這個(gè)數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型，為任何<提示，生成>對(duì)輸出一個(gè)質(zhì)量分?jǐn)?shù)。

　　訓(xùn)練一個(gè)基于獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化的強(qiáng)化學(xué)習(xí)策略

　　最后，訓(xùn)練一個(gè)基于獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化的強(qiáng)化學(xué)習(xí)策略（即，試圖生成獎(jiǎng)勵(lì)模型認(rèn)為人類(lèi)更喜歡的文本），它就是新的RLHF算法！

　　換句話說(shuō)，在強(qiáng)化學(xué)習(xí)模型中，從一個(gè)給定的狀態(tài)采取的行動(dòng)將為策略提供一個(gè)獎(jiǎng)勵(lì)，它將努力使之最大化。在本場(chǎng)景中，策略本質(zhì)上只是一個(gè)語(yǔ)言模型，它的行動(dòng)是生成文本，而它的獎(jiǎng)勵(lì)是獎(jiǎng)勵(lì)模型給生成的文本的分?jǐn)?shù)。

　　所以要訓(xùn)練這個(gè)RLHF模型：

　　首先，將RL策略初始化為步驟2中的微調(diào)LLM。然后重復(fù)以下操作。

　　取一個(gè)提示并使用RL策略生成一個(gè)輸出。

　　使用獎(jiǎng)勵(lì)模型來(lái)計(jì)算該輸出的獎(jiǎng)勵(lì)。

　　根據(jù)獎(jiǎng)勵(lì)更新RL策略（即，該策略現(xiàn)在正在學(xué)習(xí)它是否產(chǎn)生了好的或壞的反應(yīng)）。

　　簡(jiǎn)評(píng)

　　RLHF是訓(xùn)練語(yǔ)言模型的新技術(shù)，是近期大火的ChatGPT及其競(jìng)品所采用的關(guān)鍵技術(shù)之一，它使得LLM的輸出更符合人類(lèi)的偏好。OpenAI還發(fā)現(xiàn)RLHF模型的效率要高得多：1.3B參數(shù)的RLHF模型優(yōu)于1750B參數(shù)的非RLHF模型，盡管參數(shù)少了100多倍。

　　近期ChatGPT的相關(guān)信息席卷整個(gè)互聯(lián)網(wǎng)，受到大眾的關(guān)注，一個(gè)重要原因就是其在多個(gè)領(lǐng)域背景下的問(wèn)答對(duì)話相比于之前的LLM（如GPT-3）要有明顯的提升，從上文所列舉的3個(gè)簡(jiǎn)單例子就可見(jiàn)一斑了。從目前公開(kāi)的相關(guān)技術(shù)信息來(lái)看，ChatGPT構(gòu)建在GPT-3基礎(chǔ)上，模型的規(guī)模與參數(shù)量沒(méi)有增大，采用了與InstructGPT相同代際的模型（被人稱(chēng)為GPT-3.5）。而InstructGPT的核心改進(jìn)正是本文所介紹的RLHF技術(shù)，通過(guò)將帶人類(lèi)反饋的強(qiáng)化學(xué)習(xí)引入以訓(xùn)練語(yǔ)言模型來(lái)輸出人們更偏愛(ài)的結(jié)果，使得對(duì)話更符合人類(lèi)邏輯。需要注意的是，ChatGPT依然還是一種LLM，核心能力是完成各類(lèi)自然語(yǔ)言處理及理解相關(guān)的各種任務(wù)，在準(zhǔn)確性與專(zhuān)業(yè)性上，還是會(huì)受限于其訓(xùn)練數(shù)據(jù)，距離通用人工智能（AGI）還有相當(dāng)?shù)木嚯x，其相比于GPT-3的改進(jìn)還達(dá)不到所謂的“革命性”或“顛覆性”，但是我們依然可以繼續(xù)期待未來(lái)的GPT-4及之后版本將會(huì)帶來(lái)什么樣的提升。

敬請(qǐng)關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<

微信圖片_20230210170337.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

【ChatGPT專(zhuān)題】ChatGPT關(guān)鍵技術(shù)之RLHF簡(jiǎn)介

日期： 2023-02-15

來(lái)源：?jiǎn)⒚餍浅胶诵募夹g(shù)研究

相關(guān)內(nèi)容