3.9 KiB
3.9 KiB
title, sidebar_label
| title | sidebar_label |
|---|---|
| DR-Playbook – Storage-Probleme (Hot/Archive) | DR – Storage |
Dieses Playbook beschreibt, wie du vorgehst, wenn es Probleme mit dem Medien‑Storage gibt – z.B. Hot‑Storage voll, Archivierung bleibt hängen oder viele Assets im Status failed.
1. Symptome & erste Checks
Typische Symptome:
- Gäste können keine Fotos mehr hochladen (Fehlermeldungen im Upload‑Flow).
- Tenant Admins sehen „fehlende Medien“ oder sehr langsame Galerien.
event_media_assetsenthält viele Einträge mit Statuspendingoderfailed.- Logs enthalten Hinweise auf fehlgeschlagene Archivierungen oder fehlende Dateien.
Erste Checks:
- Storage‑Usage der Hot‑Volumes/Buckets prüfen (Docker‑Volume, S3‑Dashboard o.ä.).
EventMediaAsset‑Status stichprobenartig prüfen (hot,archived,pending,failed).- Queue‑Längen und Fehler in
media-storageundmedia-securityvia Horizon und Logs.
2. Hot-Storage voll oder kurz vor Limit
- Warnungen bestätigen
- System‑/Provider‑Warnungen (z.B. 90 % voll) bestätigen.
- Prüfen, ob
storage:monitoroder ähnliche Kommandos bereits Alerts ausgelöst haben.
- Sofortmaßnahmen
- Archivierung priorisieren: sicherstellen, dass
storage:archive-pendingregelmäßig läuft und diemedia-storage‑Queue abgearbeitet wird. - Temporäre Limits erhöhen, falls Provider dies erlaubt (z.B. S3‑Bucket praktisch „unbegrenzt“ vs. lokaler Disk).
- Archivierung priorisieren: sicherstellen, dass
- Aufräumen
- Alte Caches/Thumbnails, die problemlos neu generiert werden können, ggf. gezielt löschen.
- Keine unüberlegten
rm -rfAktionen auf dem Storage – immer mit klarer Strategie arbeiten.
3. Archivierung hängt oder schlägt häufig fehl
- Queue-Status prüfen
media-storageQueue‑Länge, Failed Jobs in Horizon prüfen.- Log‑Channel
storage-jobsnach Fehlermeldungen durchsuchen.
- Fehlerbilder auswerten
- Typische Ursachen:
- Netzwerk‑/Credential‑Probleme beim Zugriff auf den Archiv‑Bucket.
- Zeitüberschreitungen bei sehr großen Medien.
- Inkonsistente
EventMediaAsset‑Einträge (Pfad nicht mehr vorhanden, falscher Disk‑Key).
- Typische Ursachen:
- Abhilfe
- Netzwerk/Credentials fixen (z.B. S3‑Keys, Endpoints, Rechte).
- Problematische Assets gezielt in den Logs identifizieren und manuell nachziehen (Kopie auf Archive‑Disk, Status auf
archivedsetzen, Fehler‑Feld leeren). - Wenn viele Assets betroffen sind, lieber ein dediziertes Skript/Job bauen als ad‑hoc SQL.
4. Fehlende oder beschädigte Medien-Dateien
Wenn EventMediaAsset‑Einträge existieren, die zu nicht mehr vorhandenen Dateien zeigen:
- Umfang ermitteln
- Stichproben auf Basis der Fehlerlogs oder per Batch‑Check (z.B. ein Artisan‑Command, das
exists()prüft).
- Stichproben auf Basis der Fehlerlogs oder per Batch‑Check (z.B. ein Artisan‑Command, das
- Backup-Sicht
- Prüfen, ob die Dateien noch im Backup vorhanden sind (Hot‑/Archive‑Backups).
- Wiederherstellung
- Fehlende Dateien an den erwarteten Pfad im Storage kopieren (Hot oder Archive).
EventMediaAsset‑Status und Timestamps ggf. aktualisieren (hotvs.archived).
Wenn keine Backups existieren, bleibt nur, die betroffenen Assets sauber als „nicht mehr verfügbar“ zu kennzeichnen und die Nutzer entsprechend zu informieren.
5. Nach einem Storage-Incident
- Monitoring schärfen
- Schwellwerte in
storage-monitoranpassen (Warnung/Kritisch), Alerts für Queues/Storage erweitern.
- Schwellwerte in
- Kapazitätsplanung
- Erkenntnisse über Medienwachstum nutzen, um frühzeitig auf größere Volumes/Buckets oder häufigere Archivierung umzusteigen.
- Dokumentation
- Incident und Maßnahmen in
docs/process/changes/*dokumentieren. - Dieses Playbook aktualisieren, wenn neue Muster entdeckt wurden.
- Incident und Maßnahmen in
Dieses Playbook ist eng mit docs/ops/media-storage-spec.md und docs/ops/monitoring-observability.md verknüpft. Nutze diese Dokumente für Detailinformationen zu Queues, Thresholds und Storage‑Targets.