- Einführung in Site Reliability Engineering (SRE)
- Was ist SRE und warum ist es wichtig? Historische Entwicklung und Hauptmerkmale
- Kerngedanken hinter SRE, Unterschiede zu traditionellen Operations- und DevOps-Ansätzen
- Typische Anwendungsbereiche und Szenarien, in denen SRE eingesetzt wird
- SLI / SLO / SLA - Definition und Bedeutung
- Service Level Indicators (SLI)
- Service Level Objectives (SLO)
- Service Level Agreements (SLA)
- Monitoring/Alerting Werkzeuge
- Einführung in gängige Überwachungs- und Logging-Tools (z.B. Prometheus, Grafana, ELK Stack)
- Tools und Prozesse zur Incident-Erkennung und -Behebung (z.B. PagerDuty, Opsgenie)
- Praktische Übung: Einrichtung einer Überwachungs- und Incident Management-Lösung
- Problemstellung: Einrichtung einer Überwachungs- und Incident Management-Lösung für eine Beispielanwendung
- Lösung: Installation und Konfiguration von Prometheus und Grafana zur Überwachung, Einrichtung von Incident Management-Tools wie PagerDuty
- Ergebnis: Ein funktionierendes Überwachungs- und Incident Management-System für die Beispielanwendung
- Continuous Delivery und Release Engineering
- Kleine Deployments
- Automatisierte Deployments
- Canary Releases
- Feature Toggles
- Infrastruktur als Code
- Definition
- Nutzen
- Beispiele: Ansible / Terraform
- Zusammenarbeit zwischen Entwicklung und Betrieb
- Error Budgets: Konzept und Anwendung von Error Budgets zur Verwaltung von Systemstabilität und Featureentwicklung
- Reduzierung der operativen Last: Automatisierung, Toil-Reduzierung und Best Practices zur Effizienzsteigerung
- Incident Management
- Umgang mit Vorfällen und Ausfällen
- Status-Seite
- Post-Mortem-Analysen und Lessons Learned
- Hochverfügbarkeit vs. Notfallwiederherstellung
- Security & Compliance
- Fortgeschrittene Techniken
- Chaos Engineering
- Kapazitätsplanung - datenbasiert
- Automatische Skalierung - in Public und Private Cloud
- Abschlussdiskussion und Feedbackrunde
LernzieleAm Ende des Seminars sind die Teilnehmenden in der Lage, SRE-Praktiken effektiv zu nutzen, um die Zuverlässigkeit, Skalierbarkeit und Sicherheit ihrer Systeme zu verbessern. Sie lernen, wie sie Projekte planen, entwickeln, integrieren und testen, um verschiedene Anforderungen abzudecken und die Systemleistung zu optimieren.
ZielgruppenDieses Seminar richtet sich an Site Reliability Engineers, DevOps-Ingenieure, Systemadministratoren, Softwareentwickler und IT-Experten, die ihre Kenntnisse in der Nutzung von SRE-Praktiken zur Verbesserung der Zuverlässigkeit und Skalierbarkeit ihrer Systeme erweitern möchten. Grundlegende Kenntnisse in Systemadministration, DevOps und Cloud-Computing sind hilfreich