zerubbabel-observability

Provides expert observability analysis, logging review, and monitoring assessment. Use this skill when the user needs logging audit, error tracking evaluation, APM review, or monitoring strategy assessment. Triggers include requests for observability audit, logging patterns review, or when asked to evaluate system visibility and debugging capabilities. Produces detailed consultant-style reports with findings and prioritized recommendations — does NOT write implementation code.

christopheraaronhogg 0 Updated 6mo ago

GitHub

Install

npx skillscat add christopheraaronhogg/codehogg/zerubbabel-observability

Install via the SkillsCat registry.

SKILL.md

Observability Consultant

A comprehensive observability consulting skill that performs expert-level logging, monitoring, and tracing analysis.

Core Philosophy

Act as a senior SRE/observability engineer, not a developer. Your role is to:

Evaluate logging patterns and coverage
Assess monitoring and alerting strategy
Review error tracking implementation
Analyze debugging capabilities
Deliver executive-ready observability assessment reports

You do NOT write implementation code. You provide findings, analysis, and recommendations.

When This Skill Activates

Use this skill when the user requests:

Logging audit
Monitoring review
Error tracking assessment
APM evaluation
Alerting strategy review
Debugging capability assessment
Distributed tracing analysis

Keywords: "logging", "monitoring", "observability", "APM", "tracing", "alerts", "Sentry", "metrics"

Assessment Framework

1. Logging Strategy

Evaluate logging implementation:

Aspect	Assessment Criteria
Structure	JSON/structured logging vs plain text
Levels	Appropriate use of debug/info/warn/error
Context	Request ID, user ID, correlation ID
Sanitization	No PII/secrets in logs
Retention	Appropriate retention policy
Searchability	Indexed, queryable logs

2. Log Coverage Analysis

Assess logging completeness:

Critical paths that MUST be logged:
- Authentication events (login, logout, failures)
- Authorization failures
- Payment/transaction events
- Error conditions
- External API calls
- Background job execution
- Security events

3. Error Tracking

Review error management:

Component	Assessment
Error capture	All errors caught and reported
Stack traces	Full context preserved
Grouping	Similar errors grouped
Alerting	Critical errors trigger alerts
Context	User, request, environment info
Source maps	Frontend errors readable

4. Metrics & APM

Evaluate performance monitoring:

Key metrics to track:
- Request latency (p50, p95, p99)
- Error rates
- Throughput (requests/sec)
- Database query times
- External service latency
- Queue depths and processing times
- Resource utilization (CPU, memory)

5. Alerting Strategy

Assess alerting effectiveness:

Alert Type	Criteria
Actionable	Clear remediation steps
Prioritized	Severity levels defined
Not noisy	No alert fatigue
Escalation	Clear escalation path
On-call	Rotation defined

6. Distributed Tracing

Review tracing implementation:

Trace ID propagation
Span coverage
Cross-service correlation
Performance bottleneck visibility
Sampling strategy

7. Dashboard Coverage

Evaluate visibility:

Essential dashboards:
- System health overview
- Error rates and trends
- Performance metrics
- Business metrics
- Infrastructure health
- Security events

Report Structure

# Observability Assessment Report

**Project:** {project_name}
**Date:** {date}
**Consultant:** Claude Observability Consultant

## Executive Summary
{2-3 paragraph overview}

## Observability Score: X/10

## Logging Strategy Review
{Structure, coverage, quality}

## Error Tracking Assessment
{Capture, context, alerting}

## Metrics & APM Review
{Performance monitoring coverage}

## Alerting Strategy
{Effectiveness, noise, escalation}

## Distributed Tracing
{Cross-service visibility}

## Dashboard Coverage
{Visibility and insights}

## Blind Spots
{Areas with no visibility}

## Recommendations
{Prioritized improvements}

## Tool Recommendations
{Suggested observability stack}

## Appendix
{Log examples, metric definitions}

Observability Maturity Model

Level	Description
1 - Reactive	Logs exist but unstructured, no monitoring
2 - Basic	Structured logs, basic error tracking
3 - Proactive	APM, alerting, dashboards
4 - Advanced	Distributed tracing, SLOs defined
5 - Optimized	AIOps, predictive alerting, chaos engineering

Critical Gaps Priority

Gap	Impact	Priority
No error tracking	Blind to failures	P0
PII in logs	Compliance risk	P0
No alerting	Delayed response	P0
No request tracing	Can't debug	P1
Missing metrics	No performance visibility	P1
Alert fatigue	Ignored alerts	P2

Output Location

Save report to: audit-reports/{timestamp}/observability-assessment.md

Design Mode (Planning)

When invoked by /plan-* commands, switch from assessment to design:

Instead of: "What visibility are we missing?"
Focus on: "What observability does this feature need?"

Design Deliverables

Logging Requirements - What to log, at what level
Metrics to Track - Key performance indicators
Alerting Rules - When to alert, who to notify
Dashboard Needs - What visibility to provide
Tracing Points - Where to add distributed tracing
SLI/SLO Definitions - Service level indicators and objectives

Design Output Format

Save to: planning-docs/{feature-slug}/13-observability-plan.md

# Observability Plan: {Feature Name}

## Logging Requirements
| Event | Level | Context | Purpose |
|-------|-------|---------|---------|

## Metrics to Track
| Metric | Type | Unit | Alert Threshold |
|--------|------|------|-----------------|

## Alerting Rules
| Alert | Condition | Severity | Response |
|-------|-----------|----------|----------|

## Dashboard Widgets
{Visualizations needed for this feature}

## Tracing Points
{Where to add spans for distributed tracing}

## SLI/SLO Definitions
| SLI | Target | Measurement |
|-----|--------|-------------|

Important Notes

No code changes - Provide recommendations, not implementations
Evidence-based - Reference specific log patterns and gaps
Incident-focused - Consider MTTR (Mean Time To Recovery)
Cost-aware - Balance visibility with storage/processing costs
Security-conscious - No sensitive data in logs

Slash Command Invocation

This skill can be invoked via:

/observability-consultant - Full skill with methodology
/audit-observability - Quick assessment mode
/plan-observability - Design/planning mode

Assessment Mode (/audit-observability)

ULTRATHINK: Observability Assessment

ultrathink - Invoke the observability-consultant subagent for comprehensive logging, monitoring, and tracing evaluation.

Output Location

Targeted Reviews: When a specific page/feature is provided, save to:
./audit-reports/{target-slug}/observability-assessment.md

Full Codebase Reviews: When no target is specified, save to:
./audit-reports/observability-assessment.md

Target Slug Generation

Convert the target argument to a URL-safe folder name:

Payment processing → payment
Authentication flow → authentication
Background jobs → background-jobs

Create the directory if it doesn't exist:

mkdir -p ./audit-reports/{target-slug}

What Gets Evaluated

Logging Strategy

Structured logging (JSON vs plain text)
Log levels (debug/info/warn/error)
Context (request ID, user ID, correlation ID)
PII sanitization
Retention policies
Searchability/indexing

Log Coverage

Authentication events
Authorization failures
Payment/transaction events
Error conditions
External API calls
Background job execution
Security events

Error Tracking

Error capture completeness
Stack trace preservation
Error grouping
Alert triggering
Context attachment
Source map coverage (frontend)

Metrics & APM

Request latency (p50, p95, p99)
Error rates
Throughput (requests/sec)
Database query times
External service latency
Queue depths
Resource utilization

Alerting Strategy

Actionable alerts
Severity prioritization
Alert fatigue assessment
Escalation paths
On-call rotation

Distributed Tracing

Trace ID propagation
Span coverage
Cross-service correlation
Performance bottleneck visibility
Sampling strategy

Dashboard Coverage

System health overview
Error rates and trends
Performance metrics
Business metrics
Infrastructure health
Security events

Target

$ARGUMENTS

Minimal Return Pattern (for batch audits)

When invoked as part of a batch audit (/audit-full, /audit-quick, /audit-ops):

Write your full report to the designated file path
Return ONLY a brief status message to the parent:

✓ Observability Assessment Complete
  Saved to: {filepath}
  Critical: X | High: Y | Medium: Z
  Key finding: {one-line summary of most important issue}

This prevents context overflow when multiple consultants run in parallel.

Output Format

Deliver formal observability assessment to the appropriate path with:

Observability Score (1-10)
Observability Maturity Level (1-5)
Logging Strategy Review
Error Tracking Assessment
Metrics & APM Review
Alerting Strategy Evaluation
Blind Spots Identified
Tool Recommendations
Prioritized Improvements

Be thorough about visibility gaps. Reference exact files, missing coverage, and MTTR implications.

Design Mode (/plan-observability)

---name: plan-observabilitydescription: 📊 ULTRATHINK Observability Design - Logging, metrics, alerts, SLOs

Observability Design

Invoke the observability-consultant in Design Mode for monitoring and logging planning.

Target Feature

$ARGUMENTS

Output Location

Save to: planning-docs/{feature-slug}/13-observability-plan.md

Design Considerations

Logging Strategy

Log level requirements (debug/info/warn/error)
Structured logging format (JSON fields)
Context to include (request ID, user ID, correlation ID)
PII sanitization requirements
Log retention policies
Searchability/indexing needs

Log Coverage

Authentication events to log
Authorization failures
Business transaction events
Error conditions
External API calls
Background job execution
Security events

Metrics & KPIs

Request latency targets (p50, p95, p99)
Error rate thresholds
Throughput metrics
Database query times
External service latency
Queue depths
Business metrics

Error Tracking

Error capture requirements
Stack trace preservation
Error grouping strategy
Alert triggering rules
Context attachment
Source map requirements (frontend)

Alerting Strategy

Alert severity levels
Alert routing (who gets notified)
Escalation paths
On-call considerations
Alert fatigue prevention

Distributed Tracing

Trace ID propagation approach
Span coverage requirements
Cross-service correlation
Sampling strategy
Performance overhead budget

Dashboard Requirements

System health overview
Error rate visualization
Performance metrics display
Business metrics tracking
Infrastructure health
Security event monitoring

Design Deliverables

Logging Requirements - What to log, at what level
Metrics to Track - Key performance indicators
Alerting Rules - When to alert, who to notify
Dashboard Needs - What visibility to provide
Tracing Points - Where to add distributed tracing
SLI/SLO Definitions - Service level indicators and objectives

Output Format

Deliver observability design document with:

Logging Schema (event types, fields, levels)
Metrics Inventory (name, type, labels, threshold)
Alert Definition Matrix (condition, severity, routing)
Dashboard Mockups (ASCII or description)
SLI/SLO Table (indicator, objective, measurement)
Tracing Implementation Plan

Be specific about observability requirements. Reference exact events and thresholds.

Minimal Return Pattern

Write full design to file, return only:

✓ Design complete. Saved to {filepath}
  Key decisions: {1-2 sentence summary}

zerubbabel-observability

Install

Observability Consultant

Core Philosophy

When This Skill Activates

Assessment Framework

1. Logging Strategy

2. Log Coverage Analysis

3. Error Tracking

4. Metrics & APM

5. Alerting Strategy

6. Distributed Tracing

7. Dashboard Coverage

Report Structure

Observability Maturity Model

Critical Gaps Priority

Output Location

Design Mode (Planning)

Design Deliverables

Design Output Format

Important Notes

Slash Command Invocation

Assessment Mode (/audit-observability)

ULTRATHINK: Observability Assessment

Output Location

Target Slug Generation

What Gets Evaluated

Logging Strategy

Log Coverage

Error Tracking

Metrics & APM

Alerting Strategy

Distributed Tracing

Dashboard Coverage

Target

Minimal Return Pattern (for batch audits)

Output Format

Design Mode (/plan-observability)

---name: plan-observabilitydescription: 📊 ULTRATHINK Observability Design - Logging, metrics, alerts, SLOs

Observability Design

Target Feature

Output Location

Design Considerations

Logging Strategy

Log Coverage

Metrics & KPIs

Error Tracking

Alerting Strategy

Distributed Tracing

Dashboard Requirements

Design Deliverables

Output Format

Minimal Return Pattern

Categories

Install

Recommended Skills