Readhub

MiniMax 开源编程智能体指令遵循基准：OctoCodingBench

1 月 15 日

AI 大模型公司 MiniMax 开源编程智能体指令遵循基准 OctoCodingBench，用于评估代码仓库场景下脚手架感知指令遵循能力。现有基准测试多关注任务完成度，忽略智能体完成任务时是否遵循规则，而在真实编程场景中，智能体需遵守系统级行为约束、项目编码规范等。OctoCodingBench 测试智能体对 7 种异构指令来源的遵循程度，具有区分任务完成与规则遵循、多源异构约束等核心特性。本次发布包含 72 个精选实例，涵盖任务规范、系统提示等内容，所有任务环境打包为公开的 Docker 镜像，可直接拉取查看。详情查看：https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench 。