谷歌发布 Gemini 2.5 Computer Use 模型：专攻浏览器交互

2025 年 10 月 8 日

谷歌正在预览全新的 Gemini 人工智能模型「Gemini 2.5 计算机使用」，该模型可通过浏览器浏览网络并交互，利用「视觉理解与推理能力」分析请求、完成任务，如填写提交表单。它可用于用户界面测试等，此前已应用于谷歌 AI 模式及「Mariner」项目。此次发布在 OpenAI 宣布推出 ChatGPT 新应用次日，OpenAI 聚焦「ChatGPT 智能体」功能，Anthropic 去年已发布 Claude AI 模型的「计算机使用」版本。谷歌发布演示视频，称其模型在多基准测试中优于现有方案，不过仅限于访问浏览器环境，目前支持 13 种操作。该模型已通过 Google AI Studio 和 Vertex AI 向开发者开放，Browserbase 平台提供在线演示。