在實時數(shù)字人技術(shù)持續(xù)演進的背景下,畫質(zhì)與算力成本之間的矛盾長期存在。高質(zhì)量畫面往往依賴昂貴的算力集群,而面向普通開發(fā)者和創(chuàng)作者的方案,則常常需要在表現(xiàn)力上作出妥協(xié)。圍繞這一行業(yè)難題,Soul App創(chuàng)始人張璐團隊持續(xù)推進技術(shù)探索,在真實感、實時性與成本可控之間建立新的平衡。
繼此前開源實時數(shù)字人生成模型 SoulX-FlashTalk 之后,近日,Soul App AI 團隊(Soul AI Lab)再次發(fā)布并開源了實時數(shù)字人生成模型SoulX-FlashHead。該模型以1.3B參數(shù)規(guī)模為基礎(chǔ),定位于輕量化與高效率,在消費級硬件條件下實現(xiàn)了工業(yè)級實時生成能力,為實時數(shù)字人技術(shù)提供了新的實現(xiàn)路徑。

在單張消費級顯卡 RTX 4090 上,SoulX-FlashHead的Lite 版本推理幀率可達 96FPS,占用顯存約 6.4G,并支持最高三路并發(fā)。這一表現(xiàn)意味著,實時數(shù)字人不再局限于高算力機房環(huán)境,而是能夠運行在更常見的個人工作站甚至游戲級設(shè)備上。
在更強調(diào)畫質(zhì)表現(xiàn)的 Pro 版本中,SoulX-FlashHead同樣給出了兼顧效率與質(zhì)量的方案。該版本在單張RTX 5090上可實現(xiàn) 16.8FPS的推理速度,通過雙卡配置即可達到 25FPS 以上的實時標(biāo)準(zhǔn)。在多項基準(zhǔn)測試中,其 FID 與 Lip-sync 指標(biāo)均達到SOTA,部分結(jié)果甚至超過了參數(shù)規(guī)模更大的模型,解決了“小模型難以兼顧高畫質(zhì)”的行業(yè)痛點。
在權(quán)威數(shù)據(jù)集的實測結(jié)果中,SoulX-FlashHead的表現(xiàn)進一步驗證了這一技術(shù)路線的有效性。在高清視頻數(shù)據(jù)集 HDTF 上,Pro 版本取得了 8.31 的 FID 和 103.14 的 FVD 成績,畫面細(xì)節(jié)與穩(wěn)定性表現(xiàn)突出;在更貼近真實復(fù)雜環(huán)境的 VFHQ 數(shù)據(jù)集中,其 Sync-C 指標(biāo)達到 5.60,在口型一致性方面明顯優(yōu)于以往相關(guān)工作,減少了流式生成中常見的口型偏差問題。

支撐這些表現(xiàn)的,是一系列圍繞實時生成場景所設(shè)計的核心技術(shù)機制。首先,在訓(xùn)練階段,SoulX-FlashHead引入了雙向蒸餾機制(Oracle-Guided Distillation),通過引入具備“先知”角色的教師模型,并以 Ground Truth 作為強約束錨點,幫助模型在長視頻生成過程中能夠保持人物身份與外觀特征的穩(wěn)定,緩解了實時數(shù)字人領(lǐng)域長期存在的“身份漂移”問題。
其次,針對流式生成中音頻上下文不足帶來的口型抖動現(xiàn)象,SoulX-FlashHead提出了時序音頻上下文緩存(TACC)策略。該策略強制要求模型在生成過程中緩存約 8 秒的歷史音頻特征,用于補償短音頻切片帶來的信息缺失,使口型變化更加連貫自然,也讓實時生成在啟動階段即可進入穩(wěn)定狀態(tài)。
在數(shù)據(jù)層面,Soul AI Lab 構(gòu)建了自研的 VividHead 數(shù)據(jù)集,為模型訓(xùn)練提供高質(zhì)量底座。該數(shù)據(jù)集從超過10,000小時的原始素材中,經(jīng)過切分、關(guān)鍵點檢測、唇形一致性評分篩選等多重處理,最終保留了782小時高質(zhì)量音畫數(shù)據(jù),為模型學(xué)習(xí)穩(wěn)定的人物表征與音畫關(guān)系提供了更純凈的樣本數(shù)據(jù)。

從產(chǎn)品與應(yīng)用視角看,此前的 SoulX-FlashTalk具備0.87s亞秒級超低延時、32FPS高幀率與超長視頻穩(wěn)定生成等特征,而 SoulX-FlashHead則進一步將高保真實時數(shù)字人能力下沉至更低的算力門檻。通過發(fā)布SoulX-FlashHead,Soul創(chuàng)始人張璐團隊展示了輕量化模型在實時數(shù)字人領(lǐng)域的可行性,也為開發(fā)者提供了更易部署、更易集成的技術(shù)選項。

