4 月 16 日消息,中國電信已開源 120 億參數(shù) TeleChat-12B 星辰語義大模型,還表示將于年內開源千億級參數(shù)大模型。
相較 1 月開源的 7B 版本,12 版版本在內容、性能和應用等方面整體效果提升 30%,其中多輪推理、安全問題等領域提升超 40%。
據(jù)介紹,TeleChat-12B 將 7B 版本 1.5T 訓練數(shù)據(jù)提升至 3T,優(yōu)化數(shù)據(jù)清洗、標注策略,持續(xù)構建專項任務 SFT (監(jiān)督微調) 數(shù)據(jù),優(yōu)化數(shù)據(jù)構建規(guī)范,大大提升數(shù)據(jù)質量;同時,基于電信星辰大模型用戶真實回流數(shù)據(jù),優(yōu)化獎勵模型和強化學習模型,有效提升模型問答效果。
TeleChat-12B 在模型結構、訓練數(shù)據(jù)、訓練方法等方面進行了改進,在通用問答和知識類、代碼類、數(shù)學類榜單上相比 TeleChat-7B 均有大幅提升。
在模型結構方面,使用小規(guī)模的模型嘗試多種模型結構的組合選擇最優(yōu)結構。相比 TeleChat-7B 模型,TeleChat-12B 模型采用了詞嵌入層與輸出層解耦的結構,將詞嵌入層和輸出 lm head 層參數(shù)分開,有助于增強訓練穩(wěn)定性和收斂性。
在訓練數(shù)據(jù)方面,收集了覆蓋書籍、百科、新聞、政務、法律、醫(yī)藥、專利、論文、數(shù)學、代碼等諸多方面的大量中英文數(shù)據(jù);通過優(yōu)化數(shù)據(jù)清洗策略大幅提升數(shù)據(jù)的文本干凈度、觀點無偏性、內容有效性、格式規(guī)范性。
在訓練方法方面,使用科學數(shù)據(jù)配比學習與課程學習的方法,使用小參數(shù)模型在多種數(shù)據(jù)配比的數(shù)據(jù)上擬合,得到對各個數(shù)據(jù)集難度的先驗估計;訓練過程中每隔一段時間自動化評估當前模型在所有數(shù)據(jù)集上的 loss,以及在評測集上的生成效果,動態(tài)提升較難學習的數(shù)據(jù)集權重,保證模型在各個數(shù)據(jù)集上都有較佳的擬合效果。
中國電信表示,此次開源提供基礎模型以及基于相應版本的對話模型、不僅支持傳統(tǒng)的全量參數(shù)更新還支持 LoRA 等只更新部分參數(shù)的高效微調方法、支持 Deepspeed 微調、支持 int8、int4 量化和國產(chǎn)芯片訓練推理,推動大模型國產(chǎn)化進程。