--- title: On‑Call Cheat Sheet sidebar_label: On‑Call Spickzettel --- Dieser Spickzettel ist für On‑Call‑Personen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks. ## 1. Top‑10 Kommandos - App‑Container Logs (Laravel / Horizon): - `docker compose logs -f app` - `docker compose logs -f horizon` - Queue‑Status: - `php artisan queue:failed` - `php artisan horizon:status` - Storage‑Health: - `php artisan storage:monitor` - `php artisan storage:check-upload-queues` - Datenbank‑Checks (Beispiele): - `php artisan tinker` → gezielte Queries zu `events`, `event_media_assets`, `checkout_sessions`. ## 2. Erstdiagnose bei „Nichts geht mehr“ - Statusseite / Monitoring prüfen (HTTP‑Status, Fehler‑Rate, Queue‑Länge). - `docker compose ps` → welche Services sind „unhealthy“ oder down? - Logs der auffälligen Services anschauen (App, Queue, DB, Nginx). - Kurz festhalten: - Wann trat das Problem auf? - Betrifft es **alle** Tenants oder einzelne? - Nur Guest‑PWA, nur Tenant‑Admin oder beides? ## 3. Wichtigste Dashboards (Beispiele) - API‑Fehler‑Rate (5xx, 4xx für Public API). - Queue‑Backlog (`default`, `media-storage`, `media-security`, `notifications`). - Response‑Time Guest‑/Tenant‑PWA. - Paddle‑Webhook‑Fehler (falls im Monitoring abgebildet). > Ergänze hier konkrete Links zu euren Grafana/Datadog‑Dashboards, sobald diese stabil sind. ## 4. Wann eskalieren? - SEV‑1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen). - SEV‑2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört. - SEV‑3: Einzelne Tenants oder Funktionen, Workaround vorhanden. Siehe auch `docs/ops/incidents-major.md` für detaillierte SEV‑Definitionen und Kommunikationsregeln.