MiniMax 开源编程智能体指令遵循基准:OctoCodingBench
上周四

AI 大模型公司 MiniMax 开源编程智能体指令遵循基准 OctoCodingBench,用于评估代码仓库场景下脚手架感知指令遵循能力。现有基准测试多关注任务完成度,忽略智能体完成任务时是否遵循规则,而在真实编程场景中,智能体需遵守系统级行为约束、项目编码规范等。OctoCodingBench 测试智能体对 7 种异构指令来源的遵循程度,具有区分任务完成与规则遵循、多源异构约束等核心特性。本次发布包含 72 个精选实例,涵盖任务规范、系统提示等内容,所有任务环境打包为公开的 Docker 镜像,可直接拉取查看。详情查看:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟