Soul CEO张璐团队开源SoulX-LiveAct：从"能生成”到"能长时间稳定生成”

Soul CEO张璐团队发布开源模型SoulX-LiveAct，为实时数字人落地提供新路径

Soul CEO张璐团队开源SoulX-LiveAct：从“能生成”到“能长时间稳定生成”

随着AI技术在数字人直播、视频播客及实时互动等场景中的加速应用，用户对内容连续性与表现一致性的要求不断提升。在这一背景下，Soul App CEO 张璐团队对实时数字人生成技术进行了系统性优化，推出开源模型SoulX-LiveAct，进一步完善其在实时数字人生成领域的技术布局。

SoulX-LiveAct围绕长时间连续生成这一核心难题，采用自回归扩散（AR Diffusion）作为基础框架，并通过Neighbor Forcing机制和ConvKV Memory机制实现性能提升。模型采用按chunk逐段生成的方式，在每个chunk内部通过扩散模型完成细节建模，并通过上下文信息在chunk之间传递，实现连续流式生成。在此基础上，Neighbor Forcing机制通过对齐同一扩散步的相邻帧latent，使模型在训练与推理阶段保持一致的噪声语义空间，从而降低分布不一致带来的误差累积问题。

与此同时，ConvKV Memory机制对传统注意力机制中的KV缓存进行了结构性优化。该机制将历史信息划分为“短期高精度窗口”与“长期压缩记忆”两部分：前者用于保证局部细节与一致性，后者通过轻量化卷积进行压缩，以固定长度表示历史信息。

为提升长序列稳定性，SoulX-LiveAct引入RoPE Reset机制，对位置编码进行周期性对齐，避免因序列增长带来的位置漂移问题。在训练阶段，模型不仅采用Neighbor Forcing对齐训练分布，还通过构造长序列chunk训练样本，使模型能够在训练过程中直接面对误差累积与纠正过程。同时，引入与推理阶段一致的Memory-Aware训练方式，使模型在压缩记忆条件下仍能保持稳定表现，从源头减少训练与推理不一致带来的性能波动。

在推理性能方面，SoulX-LiveAct将历史上下文从可变缓存转变为固定规模的memory结构，实现了恒定显存推理（即推理显存不会随着视频时长增加而增长）。此外，短期窗口与长期压缩记忆的结合，使每个chunk的计算与通信成本保持稳定，从而避免长视频生成过程中出现延迟累积的问题。在512×512分辨率下，系统可在2×H100/H200条件下实现20 FPS的流式推理，端到端延迟约为0.94秒，单帧计算成本为27.2 TFLOPs。

在多项基准测试中，SoulX-LiveAct表现出较强的综合能力。在HDTF数据集上，模型取得9.40的Sync-C与6.76的Sync-D，在分布相似性指标上达到10.05 FID与69.43 FVD，同时在VBench中获得97.6的Temporal Quality与63.0的Image Quality，VBench-2.0中的Human Fidelity达到99.9。在EMTD数据集上，模型同样保持领先表现，实现8.61 Sync-C与7.29 Sync-D，并在VBench中达到97.3的Temporal Quality与65.7的Image Quality，Human Fidelity为98.9。这些结果表明，模型在口型同步、动作一致性及长时稳定性方面均具备较高水平。

基于上述能力，SoulX-LiveAct可支持多类长时在线场景，包括数字人直播、AI教育、智慧服务终端、知识付费及播客录制等。在开放世界互动环境中，系统对角色“持续一致表达”的要求更高，而SoulX-LiveAct在EMTD数据集上的表现及其实时流式能力，使其具备支持长时间在线交互的基础能力。

今年以来，Soul CEO张璐团队已陆续开源SoulX-FlashTalk与SoulX-FlashHead。其中，SoulX-FlashTalk为14B参数模型，实现0.87s亚秒级延时与32fps高帧率，并支持长视频稳定生成；SoulX-FlashHead则为1.3B轻量模型，可在单张RTX 4090显卡上实现96FPS的推理速度。在此基础上，SoulX-LiveAct进一步补足了“长时稳定生成”这一能力。

在开源策略方面，Soul CEO张璐团队持续对外开放其技术成果，不仅推动自身AI基础设施的迭代，也为开发者提供可复用的技术工具。通过与全球开发者的协同，相关技术正在不断拓展应用边界，形成更具活力的AI应用生态。

Soul CEO张璐团队开源SoulX-LiveAct：从"能生成”到"能长时间稳定生成”

相关文章

取消回复

分类文章