agent-evals

Build automated evaluation suites for AI agents using golden datasets, rubrics, and regression gates.

BagelHole 42 4 Updated 5mo ago

Install

npx skillscat add bagelhole/devops-security-agent-skills/agent-evals

Install via the SkillsCat registry.

SKILL.md

Create repeatable checks so agent behavior improves safely over time.

# Example eval pipeline steps
make evals-smoke
make evals-regression
make evals-safety