COG Eval

面向 AI 工程系统的证据化评测。

COG Eval 未来可能作为独立产品域部署。本静态页面只预览产品方向。

Benchmark cards

包含范围、约束、预期证据和可复现说明的结构化 benchmark 案例。

Eval cards

面向模型、代理、工作流和具体任务行为的紧凑评测记录。

运行证据

与每个评测案例关联的执行轨迹、日志、产物和审查记录。

社区复测

未来用于比较重复运行和独立验证的路径。

工作流比较

对模型、代理和人机协同工作流表现进行并列分析。