Soul CEO张璐团队发布开源模型SoulX-LiveAct,为实时数字人落地提供新路径
Soul CEO张璐团队开源SoulX-LiveAct:从“能生成”到“能长时间稳定生成”
随着AI技术在数字人直播、视频播客及实时互动等场景中的加速应用,用户对内容连续性与表现一致性的要求不断提升。在这一背景下,Soul App CEO 张璐团队对实时数字人生成技术进行了系统性优化,推出开源模型SoulX-LiveAct,进一步完善其在实时数字人生成领域的技术布局。
SoulX-LiveAct围绕长时间连续生成这一核心难题,采用自回归扩散(AR Diffusion)作为基础框架,并通过Neighbor Forcing机制和ConvKV Memory机制实现性能提升。模型采用按chunk逐段生成的方式,在每个chunk内部通过扩散模型完成细节建模,并通过上下文信息在chunk之间传递,实现连续流式生成。在此基础上,Neighbor Forcing机制通过对齐同一扩散步的相邻帧latent,使模型在训练与推理阶段保持一致的噪声语义空间,从而降低分布不一致带来的误差累积问题。

与此同时,ConvKV Memory机制对传统注意力机制中的KV缓存进行了结构性优化。该机制将历史信息划分为“短期高精度窗口”与“长期压缩记忆”两部分:前者用于保证局部细节与一致性,后者通过轻量化卷积进行压缩,以固定长度表示历史信息。
为提升长序列稳定性,SoulX-LiveAct引入RoPE Reset机制,对位置编码进行周期性对齐,避免因序列增长带来的位置漂移问题。在训练阶段,模型不仅采用Neighbor Forcing对齐训练分布,还通过构造长序列chunk训练样本,使模型能够在训练过程中直接面对误差累积与纠正过程。同时,引入与推理阶段一致的Memory-Aware训练方式,使模型在压缩记忆条件下仍能保持稳定表现,从源头减少训练与推理不一致带来的性能波动。
在推理性能方面,SoulX-LiveAct将历史上下文从可变缓存转变为固定规模的memory结构,实现了恒定显存推理(即推理显存不会随着视频时长增加而增长)。此外,短期窗口与长期压缩记忆的结合,使每个chunk的计算与通信成本保持稳定,从而避免长视频生成过程中出现延迟累积的问题。在512×512分辨率下,系统可在2×H100/H200条件下实现20 FPS的流式推理,端到端延迟约为0.94秒,单帧计算成本为27.2 TFLOPs。

在多项基准测试中,SoulX-LiveAct表现出较强的综合能力。在HDTF数据集上,模型取得9.40的Sync-C与6.76的Sync-D,在分布相似性指标上达到10.05 FID与69.43 FVD,同时在VBench中获得97.6的Temporal Quality与63.0的Image Quality,VBench-2.0中的Human Fidelity达到99.9。在EMTD数据集上,模型同样保持领先表现,实现8.61 Sync-C与7.29 Sync-D,并在VBench中达到97.3的Temporal Quality与65.7的Image Quality,Human Fidelity为98.9。这些结果表明,模型在口型同步、动作一致性及长时稳定性方面均具备较高水平。

基于上述能力,SoulX-LiveAct可支持多类长时在线场景,包括数字人直播、AI教育、智慧服务终端、知识付费及播客录制等。在开放世界互动环境中,系统对角色“持续一致表达”的要求更高,而SoulX-LiveAct在EMTD数据集上的表现及其实时流式能力,使其具备支持长时间在线交互的基础能力。
今年以来,Soul CEO张璐团队已陆续开源SoulX-FlashTalk与SoulX-FlashHead。其中,SoulX-FlashTalk为14B参数模型,实现0.87s亚秒级延时与32fps高帧率,并支持长视频稳定生成;SoulX-FlashHead则为1.3B轻量模型,可在单张RTX 4090显卡上实现96FPS的推理速度。在此基础上,SoulX-LiveAct进一步补足了“长时稳定生成”这一能力。
在开源策略方面,Soul CEO张璐团队持续对外开放其技术成果,不仅推动自身AI基础设施的迭代,也为开发者提供可复用的技术工具。通过与全球开发者的协同,相关技术正在不断拓展应用边界,形成更具活力的AI应用生态。
