通义实验室发布视频生成环境音框架 PrismAudio
3 月 24 日
阿里通义实验室推出 PrismAudio,这是一个将强化学习与思维链结合的视频生成环境音框架,重点研究环境音 / 音效合成,非人物配音。它参数仅 5.18 亿,生成 9 秒音频只需 0.63 秒,研究已被 ICLR 2026 收录,代码即将开源。
体验专业版特色功能,拓展更丰富、更全面的相关内容。
阿里通义实验室推出 PrismAudio,这是一个将强化学习与思维链结合的视频生成环境音框架,重点研究环境音 / 音效合成,非人物配音。它参数仅 5.18 亿,生成 9 秒音频只需 0.63 秒,研究已被 ICLR 2026 收录,代码即将开源。