《電子技術(shù)應用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > 瞄準GPT-3落地難題,首個千億中文大模型「盤古」問世,專攻企業(yè)級應用

瞄準GPT-3落地難題,首個千億中文大模型「盤古」問世,專攻企業(yè)級應用

2021-04-25
來源: 機器之心
關(guān)鍵詞: 盤古 GPT-3 企業(yè)級應用

  中文預訓練語言模型,參數(shù)量也上了千億,還是為業(yè)界定制的。

  如果你是一位 NLP 從業(yè)者,你可能發(fā)現(xiàn),最近的中文 NLP 社區(qū)有點熱鬧:「中文版 T5」、「中文版 GPT-3」以及各種大規(guī)模中文版預訓練模型陸續(xù)問世,似乎要帶領(lǐng)中文 NLP 社區(qū)跑步進入「練大模型」時代。

  在此背景下,中文語言理解測評基準「CLUE」也經(jīng)歷了它的前輩「GLUE」所經(jīng)歷過的盛況:一個模型的冠軍寶座還沒坐熱,就被一個更新的模型擠了下去。

  這次刷榜的,是一個叫「盤古」的 NLP 模型。

  在最近的 CLUE 榜單上,「盤古」在總榜、閱讀理解排行榜和分類任務排行榜上都位列第一,總榜得分比第二名高出一個百分點。

 

  除此之外,它還拿到了 NLPCC 生成任務的第一名,文本摘要的分數(shù)相比基線提升了 60%。

  4.png

  在HDC.Cloud大會上,余承東發(fā)布由華為云和循環(huán)智能聯(lián)合開發(fā)的盤古NLP 模型

  這是業(yè)界首個千億參數(shù)的中文大模型,擁有 1100 億密集參數(shù),由循環(huán)智能(Recurrent AI)和華為云聯(lián)合開發(fā),鵬城實驗室提供算力支持。

  為了訓練這個模型,田奇(華為云人工智能首席科技家)與楊植麟(循環(huán)智能聯(lián)合創(chuàng)始人)聯(lián)合帶領(lǐng)的研究團隊花了近半年的時間,給模型喂了 40TB 的行業(yè)文本數(shù)據(jù)和超過 400 萬小時的行業(yè)語音數(shù)據(jù)。

  所有這些努力,都是為了克服 GPT-3 的落地難題。

  「GPT-3 是一個學術(shù)界的產(chǎn)物,是一個學術(shù)研究的重大突破,但在落地過程中仍然面臨很多問題?!箺钪谗敫嬖V機器之心,「導致這個問題的原因是,學術(shù)研究往往以人工收集構(gòu)造的相對通用化的數(shù)據(jù)集作為 benchmark,往往以較理想化的設定來進行實驗(比如類別均衡的多分類問題),這些都跟實際應用有出入。盤古模型實際上針對性地解決了這些問題。跟以往的大規(guī)模預訓練模型不同,盤古模型從第一天起就是奔著商業(yè)化落地的角度進行設計和研發(fā)?!?/p>

  作為一個深耕 NLP 企業(yè)服務的團隊,循環(huán)智能看到了 GPT-3 等大規(guī)模預訓練模型的潛力,但也看到了它們在落地過程中的局限?!副P古」模型正是為了克服這些局限而生。在最近的一次訪談中,循環(huán)智能 NLP Moonshot 團隊向機器之心介紹了這個項目的初衷、挑戰(zhàn)和具體的解決方案。

  GPT-3 很強,但到了業(yè)界不好用

  GPT-3 是 OpenAI 在去年 5 月份發(fā)布的語言模型,不僅可以答題、翻譯、寫文章,還帶有一些數(shù)學計算的能力,因此在人工智能領(lǐng)域掀起了一場巨浪。

  GPT-3 很強,這是社區(qū)公認的事實,所以循環(huán)智能最初是想開發(fā)一個中文版 GPT-3。但在開發(fā)過程中,他們發(fā)現(xiàn):GPT 類模型在復雜的商業(yè)場景中既不好用,也不高效。

  具體來說,問題出在三個方面。

  第一個問題是:GPT 對于復雜商用場景的少樣本學習能力較弱。少樣本學習是指利用少量標注樣本完成模型的學習任務。在高質(zhì)量數(shù)據(jù)緊缺、經(jīng)濟效益至上的產(chǎn)業(yè)界,這一能力非常重要。

  此前,Schick 和 Schutze 已經(jīng)在 PET 工作中證明:在少樣本學習方面,千億參數(shù)的 GPT-3 模型的語言理解能力還比不上億級參數(shù)量的 BERT。在復雜的企業(yè)級落地場景中,這一缺陷將使得模型在利用數(shù)據(jù)方面非常低效。

  比如在下面這兩段保險場景對話中,模型需要判斷服務人員是否正確講解了「現(xiàn)金價值可以通過退保的形式返回」這個專業(yè)保險知識。正例需要完整說明以下方面:(1)要用退保的形式;(2)退回的是現(xiàn)金價值。

  對話 1:

  服務人員:「它有一個養(yǎng)老的功能,以后您不想保了,那么到一定年限,到現(xiàn)金價值的高峰期間可以退保,拿到現(xiàn)金價值 」

  對話 2:

  服務人員:「您如果說保的時間,不會,因為交的錢是固定的。只是您這個保單對應的現(xiàn)金價值是每年往上漲的」

  顯然,對話 1 同時提及了退保和退回現(xiàn)金價值兩個主要因素,應被判斷為正例;而對話 2 只提及了現(xiàn)金價值,并不涉及現(xiàn)金價值贖回的介紹,應被判斷為負例。但針對 30 億參數(shù)的中文 GPT 模型 CPM 的少樣本學習測試發(fā)現(xiàn),該模型并沒有給出正確答案。

  再比如,在下面這段教育場景對話中,模型需要判斷課程顧問是否推薦了全科輔導班。如果推薦了,則判斷為正例,否則判斷為負例。

  對話 3:

  課程顧問:「啊沒有那么多,你是考慮單科輔導班還是全科輔導班?」

  客戶:「這個這個我還沒考慮好 」

  顯然,在這段對話中,課程顧問只是單純詢問,并未體現(xiàn)推薦,因此應被判斷為負例,但 CPM 依然沒有正確識別。

  除了少樣本學習,實際應用中還存在一些需要通過大量樣本進行學習的場景,這就要涉及到模型的微調(diào)問題。但現(xiàn)實是,GPT-3 對于微調(diào)并不友好,在落地場景中難以進一步優(yōu)化,這也是 GPT 模型存在的第二大問題。

  商業(yè)場景對于模型的準確率和召回率有著很高的要求。雖然 P-Tuning 等工作提出了針對 GPT-3 的新型微調(diào)方式,但在面對復雜場景時,我們?nèi)匀浑y以通過使用更多標注數(shù)據(jù)對 GPT-3 進行進一步優(yōu)化。

  「比如說我們現(xiàn)在用到的一個場景里面,通過少量樣本得到 GPT-3 的準確率是 65%。在學術(shù)研究的語境下,這個準確率聽起來也不是很差,但是你實際場景就沒法用。這時我們要加一些數(shù)據(jù)對模型進行優(yōu)化,要做到 90% 才能用,但我們實驗發(fā)現(xiàn) GPT-3 結(jié)合微調(diào)的提升并不明顯,這就大大限制了它的使用場景?!箺钪谗氡硎?。

  GPT-3 是一個百科全書式的存在,但在很多落地場景中,我們更需要的是一個領(lǐng)域「專家」。為了打造這個「專家」,我們需要將行業(yè)的知識庫接入 AI 流水線,將通用 AI 能力跟行業(yè)知識相結(jié)合,實現(xiàn)基于行業(yè)知識的精確理解和預測。

  「例如,在實時輔助場景中,我們希望模型能夠?qū)崟r地給銷售推送知識、講解要點、推薦產(chǎn)品,通過增強智能的方式提升銷售能力。在這個場景中,就需要大量外部知識的接入,才能達到較好的推薦效果?!寡h(huán)智能資深算法總監(jiān)陳虞君解釋說。

  但與之相矛盾的是,GPT-3 只能進行直接的、端到端的生成(把知識庫做成很長的一段文字,直接放進 prompt 中),難以融入領(lǐng)域知識,這便是它的第三大問題。

  在這三大問題的限制下,GPT-3 的強大能力很難直接在商業(yè)場景中得到發(fā)揮。

  盤古:打通 NLP 技術(shù)到產(chǎn)業(yè)的最后一公里

  好用、高效是業(yè)界對一個模型的基本要求。要達到這個要求,首先要克服以上三大問題,這也是「盤古」模型的創(chuàng)新之處。

  如何提高少樣本學習能力?

  為了克服少樣本學習難題,循環(huán)智能的研究團隊進行了兩方面的努力。

  一是利用遷移學習。與 GPT-3 的少樣本學習方式不同,盤古模型的技術(shù)路線是通過元學習的方式在任務之間進行遷移,從而實現(xiàn)少樣本學習的目標。這種方式可以更好地利用任務之間的相似性,得到更好的少樣本學習結(jié)果。

  二是將 P-tuning、priming 等最新技術(shù)融入到盤古的微調(diào)框架中,進一步提升微調(diào)效果。

  下面兩個圖展示了 CNN、中文版 GPT-3(CPM)、BERT、RoBERTa 和盤古在少樣本場景下的學習能力。

  5.png

  復雜商用場景實測不同模型少樣本學習達到的 F1 結(jié)果(100%表示跟 full label 結(jié)果相同)

  6.png

  各模型復雜商用場景實測得到目標 F1 結(jié)果所需的平均樣本量

  從第一幅圖可以看出,在樣本極少的情況下,盤古的少樣本學習能力遠超上述 GPT 系列和 BERT 系列。

  第二幅圖則顯示,要得到相同的 F1 結(jié)果,盤古所需的數(shù)據(jù)量僅為中文 GPT-3 的 1/9,實現(xiàn)了近 10 倍的生產(chǎn)效率提升。「也就是說,以前可能兩個星期才能完成的一些工作,現(xiàn)在你用一兩天就可以做完。所以,這個模型實際上有很大機會去變革生產(chǎn)效率?!寡h(huán)智能資深算法總監(jiān)杜羽倫解釋說。

  如何解決大模型微調(diào)難題?

  大模型微調(diào)難題的解決也分為兩個方面。

  首先,為了增強預訓練與微調(diào)的一致性,研究者在預訓練階段加入了基于 prompt 的任務。Prompt pattern 的選擇和數(shù)據(jù)增強機制保證了微調(diào)階段使用的 prompt 得到充分的預訓練,大幅度降低了基于 prompt 的微調(diào)的難度。在下游數(shù)據(jù)充足時,微調(diào)難度的降低使得模型可以隨著數(shù)據(jù)變多而持續(xù)優(yōu)化;在下游數(shù)據(jù)稀缺時,微調(diào)難度的降低使得模型的少樣本學習效果得到顯著提升。

  其次,研究者觀察到,隨著預訓練模型規(guī)模的增大,微調(diào)難度不斷上升,過擬合十分嚴重。因此,他們分析了過擬合的主要來源,采用了 gradient dropout 等機制對微調(diào)過程進行正則化,可以較大程度緩解過擬合的問題。

  下圖展示了研究團隊針對銷售線索評分場景進行實測的結(jié)果。在銷售線索評分場景中,數(shù)據(jù)相對充裕,模型通過分析數(shù)十萬條歷史數(shù)據(jù)的成單情況對每條銷售線索的客戶意向度進行評分。在這種情況下,由于更適合微調(diào),盤古模型在最終的銷售轉(zhuǎn)化率上取得較大提升。

  7.png

  基于對話內(nèi)容的銷售線索評分場景中,使用不同模型的實測銷售線索轉(zhuǎn)化率對比

  如何融合行業(yè)知識?

  行業(yè)知識來源于行業(yè)數(shù)據(jù)。盤古團隊使用了大量行業(yè)語音和文本數(shù)據(jù)。這些數(shù)據(jù)來自銷售、客服等企業(yè)與客戶之間的溝通場景,涵蓋金融、保險、教育、地產(chǎn)、本地生活、電商、汽車等諸多行業(yè),構(gòu)成了龐大的行業(yè)知識庫。借助這些數(shù)據(jù)進行微調(diào),模型的行業(yè)特定意圖和知識理解能力大幅提高。

  此外,與 GPT-3 直接使用端到端生成的方式不同,由于盤古模型同時具備生成能力和少樣本理解能力,開發(fā)者可以根據(jù)業(yè)務需求靈活搭建 pipeline,包括與行業(yè)知識庫進行對接,實現(xiàn)行業(yè)知識與通用知識的融合,最大程度上滿足個性化的業(yè)務需求。

  8.png

  可以說,與 GPT-3 等模型相比,「盤古」是專門為產(chǎn)業(yè)落地所打造的,其終極目標就是「打通 NLP 技術(shù)與產(chǎn)業(yè)的最后一公里」。

  如何賦能產(chǎn)業(yè)?

  模型有了,之后要怎么用呢?在這方面,循環(huán)智能 NLP Moonshot 團隊給出了正在做的兩個方向。

  第一個方向是深入具體場景。

  在過去的幾年中,企業(yè)通過部署 AI 客服、AI 外呼系統(tǒng),取代了一小部分人員的簡單工作。但很多情況下,客戶并沒有感覺自己的服務體驗得到了改善,尤其是在涉及高附加值行業(yè)的產(chǎn)品銷售與服務時。

  以銀行、保險、房產(chǎn)和教育等國計民生領(lǐng)域為例。在這些領(lǐng)域,企業(yè)意識到只有通過人與人的溝通過程,才能與客戶建立更緊密的聯(lián)結(jié)。如果 NLP 技術(shù)可以在提升員工專業(yè)度和產(chǎn)能方面發(fā)揮作用,就可以幫助企業(yè)為其客戶帶來更好的體驗,創(chuàng)造更大的價值。

  這就是循環(huán)智能主攻的方向——增強「人」的智能。

  他們的思路可以概括為:借助先進的 NLP 技術(shù),從企業(yè)與客戶溝通時產(chǎn)生的對話數(shù)據(jù)中挖掘優(yōu)秀員工的優(yōu)秀實踐,把這些優(yōu)秀實踐變?yōu)槠髽I(yè)資產(chǎn),然后通過更有針對性的培訓和「實時輔助」系統(tǒng),將優(yōu)秀實踐傳遞給每一名普通員工,提升他們的表現(xiàn)。

  通俗點說,實時輔助系統(tǒng)有點像企業(yè)給銷售代表、客服等工作人員配備的一個「外掛」,這個「外掛」可以實時提示工作人員如何更好地解答客戶的疑問,如何更專業(yè)地向客戶介紹產(chǎn)品和服務……

  在實際應用中,循環(huán)智能為企業(yè)提供對比測試方案以衡量產(chǎn)品價值。他們發(fā)現(xiàn),通過讓員工變得更專業(yè),實時輔助系統(tǒng)往往能夠帶來員工的產(chǎn)能提升和公司的營收再增長。這個千億級別的市場,有望借助「盤古」模型的能力,更快地實現(xiàn)規(guī)模化應用。

  第二個方向是打造通用 API。

  大模型是一種基礎(chǔ)設施類型的存在。在楊植麟看來,「盤古」有望成為一個通用 API,開啟一種新的商業(yè)模式。在這種模式中,開發(fā)者可以基于通用 API,結(jié)合業(yè)務場景,靈活高效地定制行業(yè)應用,解鎖更多此前想象不到的場景。

  華為云人工智能首席科學家、IEEE Fellow 田奇也表示:「盤古 NLP 大模型可以實現(xiàn)一個 AI 大模型在眾多場景通用、泛化和規(guī)模化復制,減少對數(shù)據(jù)標注的依賴,讓 AI 開發(fā)由作坊式轉(zhuǎn)變?yōu)楣I(yè)化開發(fā)的新模式?!?/p>

  「基于模型的 AI 時代」即將到來?

  清華大學計算機科學與技術(shù)系教授唐杰在前段時間接受機器之心采訪時曾表示,「超大規(guī)模預訓練模型的出現(xiàn),很可能改變信息產(chǎn)業(yè)格局。繼基于數(shù)據(jù)的互聯(lián)網(wǎng)時代、基于算力的云計算時代之后,接下來可能將進入基于模型的 AI 時代。」楊植麟也同意這一觀點。在他看來,這個新時代將有兩大特征。

  一是 AI 生產(chǎn)效率的變革。隨著標注數(shù)據(jù)需求大幅降低,AI 生產(chǎn)效率將迎來兩到三個數(shù)量級的提升,擺脫原來依靠大量樣本的落后生產(chǎn)方式,進入規(guī)?;慨a(chǎn)時代。

  二是 AI 場景的指數(shù)級增加。技術(shù)的突破往往帶來新市場,而目前 AI 商業(yè)化的現(xiàn)狀就是需求很多但技術(shù)不一定滿足。AI 預訓練技術(shù)突破之后,馬上可以解鎖很多新場景,從數(shù)字化程度比較高的行業(yè)走向傳統(tǒng)行業(yè),從大型企業(yè)走向中小企業(yè)。

  楊植麟認為,預訓練的難題有三個層次:(1)如何突破現(xiàn)有范式的瓶頸,拓展智能邊界,實現(xiàn)更強的認知能力;(2)基于現(xiàn)有范式,如何進行技術(shù)提升,打通技術(shù)和產(chǎn)業(yè)的最后一公里;(3)如何找到合適的商用場景,創(chuàng)造預訓練模型的商業(yè)價值。

  如果「基于模型的 AI 時代」真的到來,學界和業(yè)界可能將迎來更加清晰的分工:「盤古模型做的是 2 和 3,也是產(chǎn)業(yè)界重要的工作。學界應該做的是 1 和 2。學界和業(yè)界應該合作,通過學術(shù)資源、算力資源、商業(yè)資源的交融,把預訓練技術(shù)往前推進?!?/p>

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。