fotospiel-app/docs/ops/oncall-cheatsheet.md at 5d48b804a535a06952ce3cf5eb3602cc6a6c7e2d

Files

Codex Agent 9afcaa7836 further rework to the documentation

2025-11-20 12:31:21 +01:00

1.9 KiB

Raw Blame History

title, sidebar_label

title	sidebar_label
On‑Call Cheat Sheet	On‑Call Spickzettel

Dieser Spickzettel ist für On‑Call‑Personen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.

1. Top‑10 Kommandos

App‑Container Logs (Laravel / Horizon):
- docker compose logs -f app
- docker compose logs -f horizon
Queue‑Status:
- php artisan queue:failed
- php artisan horizon:status
Storage‑Health:
- php artisan storage:monitor
- php artisan storage:check-upload-queues
Datenbank‑Checks (Beispiele):
- php artisan tinker → gezielte Queries zu events, event_media_assets, checkout_sessions.

2. Erstdiagnose bei „Nichts geht mehr“

Statusseite / Monitoring prüfen (HTTP‑Status, Fehler‑Rate, Queue‑Länge).
docker compose ps → welche Services sind „unhealthy“ oder down?
Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
Kurz festhalten:
- Wann trat das Problem auf?
- Betrifft es alle Tenants oder einzelne?
- Nur Guest‑PWA, nur Tenant‑Admin oder beides?

3. Wichtigste Dashboards (Beispiele)

API‑Fehler‑Rate (5xx, 4xx für Public API).
Queue‑Backlog (default, media-storage, media-security, notifications).
Response‑Time Guest‑/Tenant‑PWA.
Paddle‑Webhook‑Fehler (falls im Monitoring abgebildet).

Ergänze hier konkrete Links zu euren Grafana/Datadog‑Dashboards, sobald diese stabil sind.

4. Wann eskalieren?

SEV‑1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
SEV‑2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
SEV‑3: Einzelne Tenants oder Funktionen, Workaround vorhanden.

Siehe auch docs/ops/incidents-major.md für detaillierte SEV‑Definitionen und Kommunikationsregeln.

1.9 KiB Raw Blame History Unescape Escape

1. Top‑10 Kommandos

2. Erstdiagnose bei „Nichts geht mehr“

3. Wichtigste Dashboards (Beispiele)

4. Wann eskalieren?

1.9 KiB

Raw Blame History