---
title: On‑Call Cheat Sheet
sidebar_label: On‑Call Spickzettel
---

Dieser Spickzettel ist für On‑Call‑Personen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.

## 1. Top‑10 Kommandos

- App‑Container Logs (Laravel / Horizon):
  - `docker compose logs -f app`
  - `docker compose logs -f horizon`
- Queue‑Status:
  - `php artisan queue:failed`
  - `php artisan horizon:status`
- Storage‑Health:
  - `php artisan storage:monitor`
  - `php artisan storage:check-upload-queues`
- Datenbank‑Checks (Beispiele):
  - `php artisan tinker` → gezielte Queries zu `events`, `event_media_assets`, `checkout_sessions`.

## 2. Erstdiagnose bei „Nichts geht mehr“

- Statusseite / Monitoring prüfen (HTTP‑Status, Fehler‑Rate, Queue‑Länge).
- `docker compose ps` → welche Services sind „unhealthy“ oder down?
- Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
- Kurz festhalten:
  - Wann trat das Problem auf?
  - Betrifft es **alle** Tenants oder einzelne?
  - Nur Guest‑PWA, nur Tenant‑Admin oder beides?

## 3. Wichtigste Dashboards (Beispiele)

- API‑Fehler‑Rate (5xx, 4xx für Public API).
- Queue‑Backlog (`default`, `media-storage`, `media-security`, `notifications`).
- Response‑Time Guest‑/Tenant‑PWA.
- Paddle‑Webhook‑Fehler (falls im Monitoring abgebildet).

> Ergänze hier konkrete Links zu euren Grafana/Datadog‑Dashboards, sobald diese stabil sind.

## 4. Wann eskalieren?

- SEV‑1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
- SEV‑2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
- SEV‑3: Einzelne Tenants oder Funktionen, Workaround vorhanden.

Siehe auch `docs/ops/incidents-major.md` für detaillierte SEV‑Definitionen und Kommunikationsregeln.