微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B
2025 年 12 月 8 日
微软推出面向实时文本转语音(TTS)应用的轻量级模型 VibeVoice-Realtime-0.5B,支持流式文本输入与长语音输出,首音延迟约 300 毫秒,适用于代理对话、实时数据播报等场景。该模型采用交错窗口设计实现低延迟响应,基于声学标记器,运行速率 7.5 赫兹,在 LibriSpeech 测试集上零样本字错误率达 2.00%。推荐与对话大语言模型(LLM)协同部署,支持固定 8k 上下文及约 10 分钟音频输出,满足典型交互式语音需求。
2026-04-03
微软推出全球最高精度的语音转写模型 MAI-Transcribe-12025-12-08
微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B2025-11-05
微软 365 Copilot 移动应用上线语音支持2025-09-11
微软推出全新 Copilot Audio 音频模式,体验更具个性化的语音交互2025-09-05
微软发布全新 GPT-realtime 语音模型2025-08-29
微软推出首批自主研发 AI 模型:挑战 OpenAI,赋能下一代 Copilot2025-08-13
微软推出全新 AI 标记语言 POML2025-06-12
微软 Clipchamp 上线新功能:删文本即剪视频,无需手动调整时间轴查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。