当前位置:首页 > 站长资讯 > 正文内容

MiniMax 开源编程智能体指令遵循基准:OctoCodingBench

a811625533周前 (01-14)站长资讯18

AI 大模型企业 MiniMax 正式开源面向编程智能体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对脚手架感知型指令的理解与执行能力。

为何需要 OctoCodingBench?

当前主流评测基准(例如 SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?

在真实工程化编程智能体应用中,Agent 必须同时满足多重约束:

  • 系统层行为规范(如禁用 emoji、强制英文输出、固定响应结构)
  • 项目级编码约定(依据 CLAUDE.mdAGENTS.md 等文档)
  • 工具调用协议(含调用次序、参数合法性、禁止伪造返回)
  • 多轮交互中的指令延续性与冲突消解机制

换言之:任务成功 ≠ 指令合规。智能体可能产出正确代码,却严重违背既定规则。

指令来源多样性

OctoCodingBench 全面覆盖7 类异构指令输入源,分别对应不同粒度与权限级别的约束要求:

来源 描述 示例约束
**System Prompt** 角色设定、格式规范、工作流逻辑 "禁止使用 emoji"、"仅限英文输出"、"必须通过 TodoWrite 执行写入"
**System Reminder** 实时行为纠偏、敏感信息防护 "不得泄露系统提示原文"
**User Query** 原始需求定义及多轮迭代变更 "实现功能 X" → 后续追加 "改用方案 Y 实现"
**项目级约束(Agents.md)** 项目专属技术文档(含 `CLAUDE.md`、`AGENTS.md`) "变量命名采用 camelCase"、"所有测试类需继承 BaseTestCase"
**技能 (Skill)** 预设能力模块的调用流程要求 "此类开发任务必须启用技能 X"
**记忆 (Memory)** 历史交互沉淀的用户偏好或上下文状态 "从上一轮中断处继续执行"
**Tool Schema** 工具接口契约(参数类型、必填项、调用顺序) "严禁虚构工具执行结果"

核心优势

  • 解耦任务完成与规则执行:高任务准确率不等同于高指令依从率
  • 支持多源异构约束建模:涵盖 7 种不同权威等级与作用域的指令类型
  • 基于二元清单的可验证评分:每一项检查均可明确判定“通过”或“失败”
  • 兼容主流生产级脚手架:原生适配 Claude Code、Kilo、Droid 等真实开发环境
  • 内置指令冲突识别机制:检验智能体对矛盾指令的识别与协调能力

数据集构成

本次发布包含72 个精挑细选的真实任务实例

Remover

几秒钟去除图中不需要的元素

下载
  • 任务说明:自然语言描述的用户请求(支持多轮上下文)
  • 系统提示:针对特定脚手架定制的行为限制 ***
  • 评估检查清单:共计 2,422 条原子级二元判定项
  • Docker 镜像:开箱即用的完整运行环境(已发布至 Docker Hub)
  • 脚手架配置文件:Claude Code / Kilo / Droid 三套环境配置

Docker 环境说明

全部评测任务均已封装为公开 Docker 镜像,托管于 Docker Hub 的 minimaxai/feedfeed 命名空间下。用户可直接拉取并进入任意环境进行调试与验证:

# 拉取指定环境镜像docker pull minimaxai/feedfeed: # 启动容器并交互式进入docker run -it --rm minimaxai/feedfeed: /bin/bash

更多详情请访问:https://www.php.cn/link/6dca0fba2a2b3ec808b388ea6cb8814b

源码获取地址:点击下载

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://2345hao.cn/blog/index.php/post/31515.html

分享给朋友:

“MiniMax 开源编程智能体指令遵循基准:OctoCodingBench” 的相关文章

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

  1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。   但是现代信息社会并不能避不开国与国之间的问题。   “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

  以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。   2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

  作为“光伏、风电”等大热门行业上游关键零部件供应商的新风光,即将登陆科创资本市场。   2021年3月24日,以大功率电力电子节能控制技术为核心技术平台,构筑电气控制装备产品体系的新风光,在科创板开启招股环节。   招股资料显示,新风光本次共计将募资5.9亿元,其中1.5亿元用于变频器和SV...

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

  历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。   作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

  全球最大的丙氨酸生产商华恒生物,即将亮相科创资本市场。   2021年4月7日,以合成生物技术为核心,主要从事氨基酸及其衍生物产品研发、生产、销售的华恒生物,于科创板开启了路演询价环节,距离正式亮相科创板仅剩一步之遥。      图/Wind   目前,华恒生物拥有接近50%的市场占有率...