Skill de observabilidade e confiabilidade operacional. Use quando precisar definir logs, metricas, tracing, alertas, health checks, readiness, error budgets, rollback e operacao segura de servicos. Trigger em: "observabilidade", "observability", "SRE", "logs estruturados", "metricas", "tracing distribuido", "health check", "readiness probe", "error budget", "SLO", "alertas", "rollback seguro", "runbook operacional".
56
62%
Does it follow best practices?
Impact
—
No eval scenarios have been run
Passed
No known issues
Optimize this skill with Tessl
npx tessl skill review --optimize ./skills/20-observability-sre/SKILL.mdO Observability SRE garante que o sistema seja operavel, monitoravel e recuperavel em producao.
Inspiração: Birgitta Böckeler (Thoughtworks) — "What runtime feedback could agents be monitoring? (e.g. having them look for degrading SLOs to make suggestions, or AI judges continuously sampling response quality and flagging log anomalies)". Ver
docs/inspiration/harness-engineering.md+policies/harness-categories.md.
Esta skill agora também trata runtime feedback como categoria de sensor — não só configuração de monitoring, mas uso ativo dessa telemetria pelo agente durante feature work.
Antes do v2.7.0, o kit tinha apenas sensores estáticos (arquivos, hook de tool call). Não usava sinais de produção.
Birgitta lista 2 classes de runtime sensors valiosos:
| Situação | Recomendação |
|---|---|
| Feature de performance crítica | ✅ Forte — incluir P95 atual como input |
| Bug de produção sendo investigado | ✅ Forte — logs recentes são source-of-truth |
| Refactor de código quente (alto traffic) | ✅ Médio — verificar SLO antes/depois |
| Feature greenfield | 🟡 Skip — não tem telemetria ainda |
| Spike/POC | 🟡 Skip — overhead |
| Sem ferramenta de observability instalada | 🔴 Skip — pré-requisito ausente |
1. Antes de implementar: puxar SLO atual do endpoint/feature alvo
Datadog: via API com DD_API_KEY + DD_APP_KEY
Grafana: via Grafana HTTP API
CloudWatch: aws cloudwatch get-metric-statistics
New Relic: via NerdGraph API
Honeycomb: via Query API
2. Anotar baseline em docs/specs/<feature>.md:
"Baseline P95: 320ms, error rate: 0.4%, throughput: 1200 rpm"
3. Implementar feature com policies/source-driven.md aplicado
4. Após deploy (canary): re-puxar SLO em 5min/30min/2h
"Atual P95: 340ms (+6%) — dentro do budget de 10%"
ou
"Atual P95: 420ms (+31%) — VIOLATED budget, rollback considerado"
5. Documentar mudança no postmortem se houve impacto não previstoPara apps com alto volume de logs estruturados:
1. Definir baseline de error rate por endpoint (skill 21 data-analytics ajuda)
2. Configurar log sampling pra LLM (não enviar tudo — caro):
- 100% de errors
- 1% de info logs
- 10% de warnings
3. Agente periodicamente (ou via /loop --schedule daily):
- Pull samples da última hora
- Procura anomalias (padrões novos, spikes em error class específica)
- Sugere investigação ou hotfix
4. Output: thread no GitHub Issues / Linear com contextoCusto realista: LLM judge custa ~$5-20/mês pra app médio. Compare com tempo de SRE pra identificar same issues manualmente.
Para apps onde output é AI-generated (chatbots, content gen, code suggestion):
1. Sample 1% das responses (mais alto = mais caro)
2. AI judge avalia: relevância, factualidade, tom, safety
3. Se score < threshold → flagga pra revisão humana
4. Agregação semanal: "92% passaram. Top 3 padrões de falha: ..."< 300ms) sem contexto — endpoint pesado pode ser 800ms legitimamente| Skill | Como integra |
|---|---|
| 03 (backend) | Backend implementations devem expor metrics conforme convenção desta skill |
| 07 (deploy) | Deploy pipelines devem rodar smoke test pull dos SLOs pós-deploy |
| 21 (data-analytics) | Eventos de produto complementam SLOs técnicos |
| 24 (release-manager) | Release notes incluem snapshot de SLOs (antes/depois) |
| 30 (cost-tracker) | LLM judge cost contabilizado aqui |
scripts/pull-slo.mjs helper genérico (Datadog/Grafana/CloudWatch)commands/check-slo.md slash command/savings: mostrar quantas decisões foram informadas por runtime dataprograms/slo-driven-feature.yml program que enforce o workflow acimapolicies/harness-categories.md — runtime feedback é categoria nova de sensorpolicies/quality-gates.md "Keep quality left" — runtime sensors ficam mais à direitaEsta skill segue GLOBAL.md, policies/execution.md, policies/handoffs.md, policies/quality-gates.md, policies/token-efficiency.md, policies/tool-safety.md, policies/stack-flexibility.md e policies/evals.md.
Para playbooks e exemplos operacionais mais detalhados, consultar docs/skill-guides/observability-sre.md apenas quando necessario.
Seguir policies/handoffs.md e, quando util, templates/observability-check.md, templates/risk-note.md e templates/doc-update.md.
7577622
If you maintain this skill, you can claim it as your own. Once claimed, you can manage eval scenarios, bundle related skills, attach documentation or rules, and ensure cross-agent compatibility.