COG Eval
COG Eval 未来可能作为独立产品域部署。本静态页面只预览产品方向。
包含范围、约束、预期证据和可复现说明的结构化 benchmark 案例。
面向模型、代理、工作流和具体任务行为的紧凑评测记录。
与每个评测案例关联的执行轨迹、日志、产物和审查记录。
未来用于比较重复运行和独立验证的路径。
对模型、代理和人机协同工作流表现进行并列分析。