123,123,123

元象发布中国最大MoE开源大模型

总参数255B，激活参数36B

日期： 2024-09-14

來(lái)源：IT之家

關(guān)鍵詞： 元象XVERSE 混合专家模型架构开源大模型

9 月 13 日消息，元象 XVERSE 發(fā)布中國(guó)最大 MoE 開(kāi)源模型 XVERSE-MoE-A36B。

該模型總參數(shù) 255B，激活參數(shù) 36B，官方號(hào)稱效果能“大致達(dá)到”超過(guò) 100B 大模型的“跨級(jí)”性能躍升，同時(shí)訓(xùn)練時(shí)間減少 30%，推理性能提升 100%，使每 token 成本大幅下降。

MoE（Mixture of Experts）混合專家模型架構(gòu)，將多個(gè)細(xì)分領(lǐng)域的專家模型組合成一個(gè)超級(jí)模型，在擴(kuò)大模型規(guī)模的同時(shí)，保持模型性能最大化，甚至還能降低訓(xùn)練和推理的計(jì)算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多個(gè)評(píng)測(cè)中，元象 MoE 超過(guò)多個(gè)同類模型，包括國(guó)內(nèi)千億 MoE 模型 Skywork-MoE、傳統(tǒng) MoE 霸主 Mixtral-8x22B 以及 3140 億參數(shù)的 MoE 開(kāi)源模型 Grok-1-A86B 等。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

元象发布中国最大MoE开源大模型

日期： 2024-09-14

來(lái)源：IT之家

相關(guān)內(nèi)容