OpenAI 宣布推出 AI Agent 评测基准 PaperBench
2025 年 4 月 3 日
OpenAI 推出 PaperBench 基准,用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文,最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%,尚未超越人类水平。
OpenAI 宣布推出 AI Agent 评测基准 PaperBench
财联社 / 36Kr / 界面 / 鸟哥笔记
2026-01-23
OpenAI 拟从客户 AI 辅助研发成果中分成2025-12-09
OpenAI 称将推出首批 OpenAI 认证课程2025-10-08
OpenAI 发布战略级 AgentKit 工具套件,推动企业级智能体应用开发2025-07-18
OpenAI 发布 AI 智能体 ChatGPT Agent2025-04-17
OpenAI 开源编程智能体 Codex CLI,可在终端运行2025-04-16
OpenAI 升级《准备框架》,细化 AI 风险分类强化安全措施2025-04-11
OpenAI 削减了在人工智能模型安全测试上花费的时间和资源2025-04-03
OpenAI 宣布推出 AI Agent 评测基准 PaperBench2025-03-04
OpenAI 推出研究机构「联盟」NextGenAI2025-02-19
OpenAI 推出 SWE-Lancer 基准测试查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。