返回项目列表

规则理解、评测设计、交付包组织与自检体系

T3-Agent Rubric 试标交付包

面试试标项目:把代码类 Agent 任务拆成规则理解、先做题、答案台账、rubric 原子化、自检清单和提交包装的一套可复核交付流程。

面试项目 C:/coding/rubric
Agent EvaluationRubricQADocumentationWorkflowExcel

项目背景

这是一次代码类 Agent rubric 试标面试项目。表面任务是“写 rubric”,实际考察的是能否把复杂、模糊、材料不完整的任务转成可自动评测、可复查、可质检的判断标准。

我没有把它当成一次临时填表,而是整理成一套可执行交付包:先理解规则和题目约束,实际完成任务得到标准答案,再从答案反推 rubric,并用自检清单消除泛化、不原子、重复和标签错误。

交付内容

公开可描述的交付结构包括:

方法设计

我采用“答案合同化”的方法写 rubric。每道题先确认:

然后再把答案拆成 judge 模型可以直接执行的检查条款。每条 rubric 只检查一个点,并尽量写出明确路径、字段和值,避免“正确、完整、合理、符合源数据”等无法直接判断的泛话。

质量控制

这个交付包的核心价值不在于把规则材料复述一遍,而在于让提交前的质量控制可执行:

公开边界

这个页面只公开方法、交付结构和可迁移经验,不公开对方面试平台地址、原始规则材料、视频摘要原文、正式题包、答案细节或提交文件内容。

Rubric 类项目的敏感点很高:真正有展示价值的是“如何把评测任务工程化”,而不是把题目材料搬到公开网站。

展示重点

这个项目适合放在“面试项目”板块,因为它能体现短周期交付里的几个关键能力:读规则、拆任务、做事实验证、设计可执行评测标准、留证据链、写清楚边界,并把一次试标整理成可复用模板。

复盘

这次项目让我更明确地看到,很多 Agent 评测任务不是“主观判断模型好不好”,而是要把答案、证据和评分口径绑定起来。好的 rubric 应该像一个小型测试合同:检查对象明确、期望结果明确、判断方式明确,并且能被另一个人或 judge 模型复核。