further rework to the documentation
This commit is contained in:
48
docs/ops/oncall-cheatsheet.md
Normal file
48
docs/ops/oncall-cheatsheet.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: On‑Call Cheat Sheet
|
||||
sidebar_label: On‑Call Spickzettel
|
||||
---
|
||||
|
||||
Dieser Spickzettel ist für On‑Call‑Personen gedacht, die im Incident schnell handeln müssen. Er konzentriert sich bewusst auf die wichtigsten Kommandos, Dashboards und Checks.
|
||||
|
||||
## 1. Top‑10 Kommandos
|
||||
|
||||
- App‑Container Logs (Laravel / Horizon):
|
||||
- `docker compose logs -f app`
|
||||
- `docker compose logs -f horizon`
|
||||
- Queue‑Status:
|
||||
- `php artisan queue:failed`
|
||||
- `php artisan horizon:status`
|
||||
- Storage‑Health:
|
||||
- `php artisan storage:monitor`
|
||||
- `php artisan storage:check-upload-queues`
|
||||
- Datenbank‑Checks (Beispiele):
|
||||
- `php artisan tinker` → gezielte Queries zu `events`, `event_media_assets`, `checkout_sessions`.
|
||||
|
||||
## 2. Erstdiagnose bei „Nichts geht mehr“
|
||||
|
||||
- Statusseite / Monitoring prüfen (HTTP‑Status, Fehler‑Rate, Queue‑Länge).
|
||||
- `docker compose ps` → welche Services sind „unhealthy“ oder down?
|
||||
- Logs der auffälligen Services anschauen (App, Queue, DB, Nginx).
|
||||
- Kurz festhalten:
|
||||
- Wann trat das Problem auf?
|
||||
- Betrifft es **alle** Tenants oder einzelne?
|
||||
- Nur Guest‑PWA, nur Tenant‑Admin oder beides?
|
||||
|
||||
## 3. Wichtigste Dashboards (Beispiele)
|
||||
|
||||
- API‑Fehler‑Rate (5xx, 4xx für Public API).
|
||||
- Queue‑Backlog (`default`, `media-storage`, `media-security`, `notifications`).
|
||||
- Response‑Time Guest‑/Tenant‑PWA.
|
||||
- Paddle‑Webhook‑Fehler (falls im Monitoring abgebildet).
|
||||
|
||||
> Ergänze hier konkrete Links zu euren Grafana/Datadog‑Dashboards, sobald diese stabil sind.
|
||||
|
||||
## 4. Wann eskalieren?
|
||||
|
||||
- SEV‑1: Plattform weitgehend nicht nutzbar (> 15 Minuten Ausfall, viele Tenants betroffen).
|
||||
- SEV‑2: Kritische Kernfunktion (Uploads, Logins, Zahlungen) länger als 30 Minuten gestört.
|
||||
- SEV‑3: Einzelne Tenants oder Funktionen, Workaround vorhanden.
|
||||
|
||||
Siehe auch `docs/ops/incidents-major.md` für detaillierte SEV‑Definitionen und Kommunikationsregeln.
|
||||
|
||||
Reference in New Issue
Block a user