further rework to the documentation

This commit is contained in:
Codex Agent
2025-11-20 12:31:21 +01:00
parent 6afa44d947
commit 9afcaa7836
90 changed files with 1721 additions and 29 deletions

View File

@@ -0,0 +1,48 @@
---
title: OnCall Cheat Sheet
sidebar_label: OnCall Spickzettel
---
Dieser Spickzettel ist für OnCallPersonen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.
## 1. Top10 Kommandos
- AppContainer Logs (Laravel / Horizon):
- `docker compose logs -f app`
- `docker compose logs -f horizon`
- QueueStatus:
- `php artisan queue:failed`
- `php artisan horizon:status`
- StorageHealth:
- `php artisan storage:monitor`
- `php artisan storage:check-upload-queues`
- DatenbankChecks (Beispiele):
- `php artisan tinker` → gezielte Queries zu `events`, `event_media_assets`, `checkout_sessions`.
## 2. Erstdiagnose bei „Nichts geht mehr“
- Statusseite / Monitoring prüfen (HTTPStatus, FehlerRate, QueueLänge).
- `docker compose ps` → welche Services sind „unhealthy“ oder down?
- Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
- Kurz festhalten:
- Wann trat das Problem auf?
- Betrifft es **alle** Tenants oder einzelne?
- Nur GuestPWA, nur TenantAdmin oder beides?
## 3. Wichtigste Dashboards (Beispiele)
- APIFehlerRate (5xx, 4xx für Public API).
- QueueBacklog (`default`, `media-storage`, `media-security`, `notifications`).
- ResponseTime Guest/TenantPWA.
- PaddleWebhookFehler (falls im Monitoring abgebildet).
> Ergänze hier konkrete Links zu euren Grafana/DatadogDashboards, sobald diese stabil sind.
## 4. Wann eskalieren?
- SEV1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
- SEV2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
- SEV3: Einzelne Tenants oder Funktionen, Workaround vorhanden.
Siehe auch `docs/ops/incidents-major.md` für detaillierte SEVDefinitionen und Kommunikationsregeln.