Files
fotospiel-app/docs/ops/oncall-cheatsheet.md
2025-11-20 12:31:21 +01:00

49 lines
1.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: OnCall Cheat Sheet
sidebar_label: OnCall Spickzettel
---
Dieser Spickzettel ist für OnCallPersonen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.
## 1. Top10 Kommandos
- AppContainer Logs (Laravel / Horizon):
- `docker compose logs -f app`
- `docker compose logs -f horizon`
- QueueStatus:
- `php artisan queue:failed`
- `php artisan horizon:status`
- StorageHealth:
- `php artisan storage:monitor`
- `php artisan storage:check-upload-queues`
- DatenbankChecks (Beispiele):
- `php artisan tinker` → gezielte Queries zu `events`, `event_media_assets`, `checkout_sessions`.
## 2. Erstdiagnose bei „Nichts geht mehr“
- Statusseite / Monitoring prüfen (HTTPStatus, FehlerRate, QueueLänge).
- `docker compose ps` → welche Services sind „unhealthy“ oder down?
- Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
- Kurz festhalten:
- Wann trat das Problem auf?
- Betrifft es **alle** Tenants oder einzelne?
- Nur GuestPWA, nur TenantAdmin oder beides?
## 3. Wichtigste Dashboards (Beispiele)
- APIFehlerRate (5xx, 4xx für Public API).
- QueueBacklog (`default`, `media-storage`, `media-security`, `notifications`).
- ResponseTime Guest/TenantPWA.
- PaddleWebhookFehler (falls im Monitoring abgebildet).
> Ergänze hier konkrete Links zu euren Grafana/DatadogDashboards, sobald diese stabil sind.
## 4. Wann eskalieren?
- SEV1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
- SEV2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
- SEV3: Einzelne Tenants oder Funktionen, Workaround vorhanden.
Siehe auch `docs/ops/incidents-major.md` für detaillierte SEVDefinitionen und Kommunikationsregeln.