IA e agentes
Diagnóstico seguro de falhas em deep learning
Investiga erros concretos de treinamento ou inferência antes de propor correções mínimas, separando debugging de contribuições científicas.
Ver código no GitHub Instala diretamente do repositório-fonte.
O que esta skill faz
Use esta skill diante de traceback, CUDA OOM, incompatibilidade de shape, NaN loss, falha de checkpoint ou outro sintoma observável. O fluxo prioriza encontrar a causa local e pedir aprovação antes de modificar o código.
Quando usar
- Analisar um traceback de treinamento
- Investigar CUDA OOM
- Diagnosticar falha ao carregar checkpoint
- Localizar a origem de shape mismatch
- Examinar uma loss que virou NaN
Como usar
- Forneça o erro completo e o contexto da execução
- Revise a área relevante do repositório
- Restrinja as hipóteses com evidências locais
- Documente o diagnóstico em debug_outputs/DIAGNOSIS.md
- Proponha a menor correção e aguarde aprovação
O que revisar antes de instalar
- Não altera o código por padrão
- Não serve para refatorações amplas
- Não conduz experimentação especulativa
- Mudanças que afetem comparabilidade exigem destaque explícito
SKILL.md
--- name: safe-debug description: Rigor Debug / Rigor Audit skill for deep learning research work. Use when the user pastes a traceback, terminal error, CUDA OOM, checkpoint load failure, shape mismatch, NaN loss symptom, or training failure and wants conservative diagnosis before any patching, with debug fixes clearly separated from research contributions. Do not use for broad refactoring, speculative adaptation, automatic exploratory patching, or general repository familiarization. --- # safe-debug Use this as the Rigor Debug / Rigor Audit skill. The installed slug remains `safe-debug` for compatibility. Use the shared operating principles in `../../references/agent-operating-principles.md`; this skill should guide conservative diagnosis without blocking the model from finding the local root cause. ## When to apply - The user provides a traceback, terminal error, or concrete training or inference failure symptom. - The user wants diagnosis, root-cause narrowing, and minimal patch suggestions before code is changed. - The user wants a safe debug flow with explicit human approval before mutation. ## When not to apply - When the user wants a broad repository walkthrough without an active failure. - When the task is speculative experimentation or code adaptation. - When the user is asking for a large refactor or readability rewrite. ## Clear boundaries - Diagnose first. - Do not modify repository code by default. - If a patch is needed, propose the smallest fix and require explicit approval first. - Escalate savepoint or branch creation before medium-risk or high-risk changes. - A debug fix is not automatically a research contribution; if it changes experiment meaning or comparability, say so explicitly. ## Output expectations - `debug_outputs/DIAGNOSIS.md` - `debug_outputs/PATCH_PLAN.md` - `debug_outputs/status.json` ## Notes Use `references/debug-policy.md`, `../../references/research-rigor-principles.md`, and the shared `references/research-pitfall-checklist.md`.