规则理解、评测设计、交付包组织与自检体系

T3-Agent Rubric 试标交付包

面试试标项目：把代码类 Agent 任务拆成规则理解、先做题、答案台账、rubric 原子化、自检清单和提交包装的一套可复核交付流程。

面试项目 C:/coding/rubric

Agent EvaluationRubricQADocumentationWorkflowExcel

项目背景

这是一次代码类 Agent rubric 试标面试项目。表面任务是“写 rubric”，实际考察的是能否把复杂、模糊、材料不完整的任务转成可自动评测、可复查、可质检的判断标准。

我没有把它当成一次临时填表，而是整理成一套可执行交付包：先理解规则和题目约束，实际完成任务得到标准答案，再从答案反推 rubric，并用自检清单消除泛化、不原子、重复和标签错误。

公开可描述的交付结构包括：

我采用“答案合同化”的方法写 rubric。每道题先确认：

然后再把答案拆成 judge 模型可以直接执行的检查条款。每条 rubric 只检查一个点，并尽量写出明确路径、字段和值，避免“正确、完整、合理、符合源数据”等无法直接判断的泛话。

这个交付包的核心价值不在于把规则材料复述一遍，而在于让提交前的质量控制可执行：

这个页面只公开方法、交付结构和可迁移经验，不公开对方面试平台地址、原始规则材料、视频摘要原文、正式题包、答案细节或提交文件内容。

Rubric 类项目的敏感点很高：真正有展示价值的是“如何把评测任务工程化”，而不是把题目材料搬到公开网站。

这个项目适合放在“面试项目”板块，因为它能体现短周期交付里的几个关键能力：读规则、拆任务、做事实验证、设计可执行评测标准、留证据链、写清楚边界，并把一次试标整理成可复用模板。

这次项目让我更明确地看到，很多 Agent 评测任务不是“主观判断模型好不好”，而是要把答案、证据和评分口径绑定起来。好的 rubric 应该像一个小型测试合同：检查对象明确、期望结果明确、判断方式明确，并且能被另一个人或 judge 模型复核。