1.9 KiB
1.9 KiB
title, sidebar_label
| title | sidebar_label |
|---|---|
| On‑Call Cheat Sheet | On‑Call Spickzettel |
Dieser Spickzettel ist für On‑Call‑Personen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.
1. Top‑10 Kommandos
- App‑Container Logs (Laravel / Horizon):
docker compose logs -f appdocker compose logs -f horizon
- Queue‑Status:
php artisan queue:failedphp artisan horizon:status
- Storage‑Health:
php artisan storage:monitorphp artisan storage:check-upload-queues
- Datenbank‑Checks (Beispiele):
php artisan tinker→ gezielte Queries zuevents,event_media_assets,checkout_sessions.
2. Erstdiagnose bei „Nichts geht mehr“
- Statusseite / Monitoring prüfen (HTTP‑Status, Fehler‑Rate, Queue‑Länge).
docker compose ps→ welche Services sind „unhealthy“ oder down?- Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
- Kurz festhalten:
- Wann trat das Problem auf?
- Betrifft es alle Tenants oder einzelne?
- Nur Guest‑PWA, nur Tenant‑Admin oder beides?
3. Wichtigste Dashboards (Beispiele)
- API‑Fehler‑Rate (5xx, 4xx für Public API).
- Queue‑Backlog (
default,media-storage,media-security,notifications). - Response‑Time Guest‑/Tenant‑PWA.
- Paddle‑Webhook‑Fehler (falls im Monitoring abgebildet).
Ergänze hier konkrete Links zu euren Grafana/Datadog‑Dashboards, sobald diese stabil sind.
4. Wann eskalieren?
- SEV‑1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
- SEV‑2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
- SEV‑3: Einzelne Tenants oder Funktionen, Workaround vorhanden.
Siehe auch docs/ops/incidents-major.md für detaillierte SEV‑Definitionen und Kommunikationsregeln.