OpenAI 宣布推出 AI Agent 评测基准 PaperBench

2025 年 4 月 3 日

OpenAI 推出 PaperBench 基准，用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文，最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%，尚未超越人类水平。

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

财联社 / 36Kr / 界面 / 鸟哥笔记

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

品玩

OpenAI 开源 AI Agent 评测基准 PaperBench

开源中国

展开全部报道

2026-01-23

OpenAI 拟从客户 AI 辅助研发成果中分成

2025-12-09

OpenAI 称将推出首批 OpenAI 认证课程

2025-10-08

OpenAI 发布战略级 AgentKit 工具套件，推动企业级智能体应用开发

2025-07-18

OpenAI 发布 AI 智能体 ChatGPT Agent

2025-04-17

OpenAI 开源编程智能体 Codex CLI，可在终端运行

2025-04-16

OpenAI 升级《准备框架》，细化 AI 风险分类强化安全措施

2025-04-11

OpenAI 削减了在人工智能模型安全测试上花费的时间和资源

2025-04-03

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

2025-03-04

OpenAI 推出研究机构「联盟」NextGenAI

2025-02-19

OpenAI 推出 SWE-Lancer 基准测试

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。