123,123,123

Soul创始人张璐团队开源SoulX-FlashHead

以轻量化模型打破实时数字人算力壁垒

日期： 2026-03-25

來源：中国企业家日报

關(guān)鍵詞： 数字人 SoulX-FlashHead

在實時數(shù)字人技術(shù)持續(xù)演進的背景下，畫質(zhì)與算力成本之間的矛盾長期存在。高質(zhì)量畫面往往依賴昂貴的算力集群，而面向普通開發(fā)者和創(chuàng)作者的方案，則常常需要在表現(xiàn)力上作出妥協(xié)。圍繞這一行業(yè)難題，Soul App創(chuàng)始人張璐團隊持續(xù)推進技術(shù)探索，在真實感、實時性與成本可控之間建立新的平衡。

繼此前開源實時數(shù)字人生成模型 SoulX-FlashTalk 之后，近日，Soul App AI 團隊（Soul AI Lab）再次發(fā)布并開源了實時數(shù)字人生成模型SoulX-FlashHead。該模型以1.3B參數(shù)規(guī)模為基礎(chǔ)，定位于輕量化與高效率，在消費級硬件條件下實現(xiàn)了工業(yè)級實時生成能力，為實時數(shù)字人技術(shù)提供了新的實現(xiàn)路徑。

在單張消費級顯卡 RTX 4090 上，SoulX-FlashHead的Lite 版本推理幀率可達 96FPS，占用顯存約 6.4G，并支持最高三路并發(fā)。這一表現(xiàn)意味著，實時數(shù)字人不再局限于高算力機房環(huán)境，而是能夠運行在更常見的個人工作站甚至游戲級設(shè)備上。

在更強調(diào)畫質(zhì)表現(xiàn)的 Pro 版本中，SoulX-FlashHead同樣給出了兼顧效率與質(zhì)量的方案。該版本在單張RTX 5090上可實現(xiàn) 16.8FPS的推理速度，通過雙卡配置即可達到 25FPS 以上的實時標準。在多項基準測試中，其 FID 與 Lip-sync 指標均達到SOTA，部分結(jié)果甚至超過了參數(shù)規(guī)模更大的模型，解決了“小模型難以兼顧高畫質(zhì)”的行業(yè)痛點。

在權(quán)威數(shù)據(jù)集的實測結(jié)果中，SoulX-FlashHead的表現(xiàn)進一步驗證了這一技術(shù)路線的有效性。在高清視頻數(shù)據(jù)集 HDTF 上，Pro 版本取得了 8.31 的 FID 和 103.14 的 FVD 成績，畫面細節(jié)與穩(wěn)定性表現(xiàn)突出；在更貼近真實復(fù)雜環(huán)境的 VFHQ 數(shù)據(jù)集中，其 Sync-C 指標達到 5.60，在口型一致性方面明顯優(yōu)于以往相關(guān)工作，減少了流式生成中常見的口型偏差問題。

支撐這些表現(xiàn)的，是一系列圍繞實時生成場景所設(shè)計的核心技術(shù)機制。首先，在訓練階段，SoulX-FlashHead引入了雙向蒸餾機制（Oracle-Guided Distillation），通過引入具備“先知”角色的教師模型，并以 Ground Truth 作為強約束錨點，幫助模型在長視頻生成過程中能夠保持人物身份與外觀特征的穩(wěn)定，緩解了實時數(shù)字人領(lǐng)域長期存在的“身份漂移”問題。

其次，針對流式生成中音頻上下文不足帶來的口型抖動現(xiàn)象，SoulX-FlashHead提出了時序音頻上下文緩存（TACC）策略。該策略強制要求模型在生成過程中緩存約 8 秒的歷史音頻特征，用于補償短音頻切片帶來的信息缺失，使口型變化更加連貫自然，也讓實時生成在啟動階段即可進入穩(wěn)定狀態(tài)。

在數(shù)據(jù)層面，Soul AI Lab 構(gòu)建了自研的 VividHead 數(shù)據(jù)集，為模型訓練提供高質(zhì)量底座。該數(shù)據(jù)集從超過10,000小時的原始素材中，經(jīng)過切分、關(guān)鍵點檢測、唇形一致性評分篩選等多重處理，最終保留了782小時高質(zhì)量音畫數(shù)據(jù)，為模型學習穩(wěn)定的人物表征與音畫關(guān)系提供了更純凈的樣本數(shù)據(jù)。

從產(chǎn)品與應(yīng)用視角看，此前的 SoulX-FlashTalk具備0.87s亞秒級超低延時、32FPS高幀率與超長視頻穩(wěn)定生成等特征，而 SoulX-FlashHead則進一步將高保真實時數(shù)字人能力下沉至更低的算力門檻。通過發(fā)布SoulX-FlashHead，Soul創(chuàng)始人張璐團隊展示了輕量化模型在實時數(shù)字人領(lǐng)域的可行性，也為開發(fā)者提供了更易部署、更易集成的技術(shù)選項。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Soul创始人张璐团队开源SoulX-FlashHead

日期： 2026-03-25

來源：中国企业家日报

相關(guān)內(nèi)容