Apple 与中国人民大学联合推出统一音视频生成模型 VSSFlow

2 月 10 日

Apple 三位研究人员与中国人民大学六位学者共同开发新型 AI 模型 VSSFlow，首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用 10 层架构，融合视频帧与文本转音素序列，通过流匹配技术重建音频。研究发现语音与音效联合训练有「互促提升」效应，团队还基于合成混合数据对模型微调以实现音画同步。实验显示，VSSFlow 在音效与语音任务上达业界领先水平，项目代码已开源，模型权重及推理演示将陆续开放，以推动视频条件音频生成技术发展。