谷歌 AI 推出 Stax:帮助开发者根据自定义标准评估大语言模型
2025 年 9 月 3 日
谷歌 AI 推出实验性评估工具 Stax,帮助开发者根据自定义标准测试和分析大语言模型。Stax 提供「快速比较」和「项目与数据集」功能,支持结构化评估流程,提升测试效率与一致性。工具内置多种评估器,涵盖流畅性、基础性和安全性,同时支持自定义评估标准,满足不同应用场景需求。通过分析仪表板,开发者可直观比较模型表现,更好地评估模型在实际应用中的适用性。
2026-02-20
谷歌 Gemini 3.1 Pro 发布:推理能力翻倍,专为复杂任务而生2026-02-18
谷歌 I/O 开发者大会将于 5 月 19 日至 20 日举办2025-12-22
谷歌发布 A2UI 开放标准,实现 AI 代理实时生成图形界面2025-12-11
谷歌升级 Gemini 2.5 TTS 模型,强化语音表达能力2025-11-03
谷歌因虚假指控争议从 AI Studio 下架 Gemma 开源模型2025-10-08
谷歌发布 Gemini 2.5 Computer Use 模型:专攻浏览器交互2025-10-04
谷歌相册 AI 图生视频功能升级 可自定义提示词精准生成内容2025-09-03
谷歌 AI 推出 Stax:帮助开发者根据自定义标准评估大语言模型2025-06-18
谷歌推出 Gemini 2.5 模型系列 AI 推理模型性能提升 30%查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。