Apple 与中国人民大学联合推出统一音视频生成模型 VSSFlow2 月 10 日Apple 三位研究人员与中国人民大学六位学者共同开发新型 AI 模型 VSSFlow,首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用 10 层架构,融合视频帧与文本转音素序列,通过流匹配技术重建音频。研究发现语音与音效联合训练有「互促提升」效应,团队还基于合成混合数据对模型微调以实现音画同步。实验显示,VSSFlow 在音效与语音任务上达业界领先水平,项目代码已开源,模型权重及推理演示将陆续开放,以推动视频条件音频生成技术发展。苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音IT 之家苹果联合人大发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音凤凰科技苹果联手中国研究团队开发统一音视频生成模型 VSSFlow开源中国展开全部报道专业版功能登录体验专业版特色功能,拓展更丰富、更全面的相关内容。