Files
fotospiel-app/docs/ops/oncall-cheatsheet.md
2025-11-20 12:31:21 +01:00

1.9 KiB
Raw Permalink Blame History

title, sidebar_label
title sidebar_label
OnCall Cheat Sheet OnCall Spickzettel

Dieser Spickzettel ist für OnCallPersonen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.

1. Top10 Kommandos

  • AppContainer Logs (Laravel / Horizon):
    • docker compose logs -f app
    • docker compose logs -f horizon
  • QueueStatus:
    • php artisan queue:failed
    • php artisan horizon:status
  • StorageHealth:
    • php artisan storage:monitor
    • php artisan storage:check-upload-queues
  • DatenbankChecks (Beispiele):
    • php artisan tinker → gezielte Queries zu events, event_media_assets, checkout_sessions.

2. Erstdiagnose bei „Nichts geht mehr“

  • Statusseite / Monitoring prüfen (HTTPStatus, FehlerRate, QueueLänge).
  • docker compose ps → welche Services sind „unhealthy“ oder down?
  • Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
  • Kurz festhalten:
    • Wann trat das Problem auf?
    • Betrifft es alle Tenants oder einzelne?
    • Nur GuestPWA, nur TenantAdmin oder beides?

3. Wichtigste Dashboards (Beispiele)

  • APIFehlerRate (5xx, 4xx für Public API).
  • QueueBacklog (default, media-storage, media-security, notifications).
  • ResponseTime Guest/TenantPWA.
  • PaddleWebhookFehler (falls im Monitoring abgebildet).

Ergänze hier konkrete Links zu euren Grafana/DatadogDashboards, sobald diese stabil sind.

4. Wann eskalieren?

  • SEV1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
  • SEV2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
  • SEV3: Einzelne Tenants oder Funktionen, Workaround vorhanden.

Siehe auch docs/ops/incidents-major.md für detaillierte SEVDefinitionen und Kommunikationsregeln.