Operação¶
Tudo que opera, mantém e recupera o sistema em produção.
Páginas¶
- Runbook de Emergência — 8 cenários de falha com fix passo-a-passo
- Deploy — como atualizar EA, API e modelos em produção
- Backup & DR — Backblaze B2, restore, drills mensais
- UptimeRobot — setup do monitoring externo
- Troubleshooting — TOP 15 problemas e como diagnosticar
Princípios de operação¶
1 — Estanca antes de investigar
Cliente perdendo dinheiro? Primeiro: derrube o EA do lado dele (manual via WhatsApp).
Sistema produzindo sinais errados? Primeiro: setar prediction.min_probability=0.99 no model.yaml (filtra tudo).
Depois faz pos-mortem com calma.
2 — Nunca tocar produção sem snapshot
Antes de mudar schema, model.yaml, código crítico: garanta que tem backup recente (≤24h) no B2.
3 — Logs antes de hipóteses
docker logs forex_api --tail 200 antes de teorizar.
RTO/RPO¶
| Cenário | Tempo de recuperação esperado |
|---|---|
| API caiu | 5 min (restart) — 30 min (rebuild) |
| Worker caiu | 5 min (restart) |
| DB corrompido | 30 min (restore B2 → forex_restore → swap) |
| Modelo degradou | Auto-rollback em <24h via CUSUM |
| Chave vazada | Imediato (cliente regenera) |
| VPS perdida | 2-4h (provisionar nova + restore B2) |
Tasks Windows (agendadas)¶
| Task | Quando | O quê |
|---|---|---|
QuantFX-Retrain-Semanal |
Segunda 03:00 | Retreina champions, applica gates |
QuantFX-Drift-Check-Diario |
04:00 | PSI/CUSUM, auto-rollback se necessário |
QuantFX-AutoPartition |
Dia 25 | Cria partição do próximo mês |
QuantFX-Backup-Diario |
03:00 | pg_dump + tar → B2 |
Listar: schtasks /query /fo TABLE | findstr QuantFX