Files
fotospiel-app/docs/superadmin-kb/de/01-grundlagen/03-oncall-cheatsheet.md
Codex Agent fb45d1f6ab
Some checks failed
linter / quality (push) Has been cancelled
tests / ci (push) Has been cancelled
tests / ui (push) Has been cancelled
feat(superadmin): migrate internal docs from docusaurus to guava kb
2026-02-07 09:58:39 +01:00

1.8 KiB
Raw Blame History

title
title
OnCall Cheat Sheet

Dieser Spickzettel ist für OnCallPersonen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.

1. Top10 Kommandos

  • AppContainer Logs (Laravel / Horizon):
    • docker compose logs -f app
    • docker compose logs -f horizon
  • QueueStatus:
    • php artisan queue:failed
    • php artisan horizon:status
  • StorageHealth:
    • php artisan storage:monitor
    • php artisan storage:check-upload-queues
  • DatenbankChecks (Beispiele):
    • php artisan tinker → gezielte Queries zu events, event_media_assets, checkout_sessions.

2. Erstdiagnose bei „Nichts geht mehr“

  • Statusseite / Monitoring prüfen (HTTPStatus, FehlerRate, QueueLänge).
  • docker compose ps → welche Services sind „unhealthy“ oder down?
  • Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
  • Kurz festhalten:
    • Wann trat das Problem auf?
    • Betrifft es alle Tenants oder einzelne?
    • Nur GuestPWA, nur TenantAdmin oder beides?

3. Wichtigste Dashboards (Beispiele)

  • APIFehlerRate (5xx, 4xx für Public API).
  • QueueBacklog (default, media-storage, media-security, notifications).
  • ResponseTime Guest/TenantPWA.
  • Lemon SqueezyWebhookFehler (falls im Monitoring abgebildet).

Ergänze hier konkrete Links zu euren Grafana/DatadogDashboards, sobald diese stabil sind.

4. Wann eskalieren?

  • SEV1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
  • SEV2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
  • SEV3: Einzelne Tenants oder Funktionen, Workaround vorhanden.

Siehe auch docs/ops/incidents-major.md für detaillierte SEVDefinitionen und Kommunikationsregeln.