Einführung in den KursModul 1: SRE-Anti-Patterns
- Umbenennung von Ops oder DevOps oder Dev in SRE
- Benutzer bemerken ein Problem, bevor Sie es bemerken
- Messen bis zum Rand
- Falschmeldungen sind schlimmer als keine Warnmeldungen
- Konfigurationsmanagement-Falle für Schneeflocken
- Der Dogpile: Reaktion auf einen Mob-Vorfall
- Punktbefestigung
- Gatekeeper für die Produktionsbereitschaft
- Fail-Safe wirklich?
Modul 2: SLO ist ein Proxy für Kundenzufriedenheit
- Definition von SLIs, die die Zuverlässigkeit eines Dienstes aus Sicht der Nutzer sinnvoll messen
- Festlegung von Systemgrenzen in einem verteilten Ökosystem zur Bestimmung korrekter SLIs
- Verwenden Sie Fehlerbudgets, damit Ihr Team bessere Diskussionen führen und bessere datengestützte Entscheidungen treffen kann.
- Insgesamt ist die Zuverlässigkeit nur so gut wie das schwächste Glied in Ihrem Servicegraph
- Fehlerschwellen bei der Nutzung von Drittanbieterdiensten
Modul 3: Aufbau sicherer und zuverlässiger Systeme
- SRE und ihre Rolle beim Aufbau sicherer und zuverlässiger Systeme
- Design für eine sich verändernde Architektur
- Fehlertolerantes Design
- Design für Sicherheit
- Design für Resilienz
- Design für Skalierbarkeit
- Design für Leistung
- Design für Zuverlässigkeit
- Gewährleistung von Datensicherheit und Datenschutz
Modul 4: Beobachtbarkeit des gesamten Systems
- Moderne Apps sind komplex und unberechenbar
- Langsam ist das neue Down
- Säulen der Beobachtbarkeit
- Implementierung der synthetischen und Endbenutzer-Ãœberwachung
- Beobachtungsorientierte Entwicklung
- Verteilte Rückverfolgung
- Was geschieht mit der Ãœberwachung?
- Instrumentierung mit Bibliotheken und Agenten
Modul 5: Plattformtechnik und AIOPs
- Eine plattformzentrierte Sichtweise löst organisatorische Skalierbarkeitsprobleme wie Fragmentierung, Inkonsistenz und Unvorhersehbarkeit.
- Wie nutzen Sie AIOps zur Verbesserung der Ausfallsicherheit?
- Wie kann DataOps Ihnen auf diesem Weg helfen?
- Ein einfaches Rezept zur Umsetzung von AIOps
- Indikative Messung von AIOps
Modul 6: SRE & Incident Response Management
- SRE-Schlüsselzuständigkeiten für die Reaktion auf Vorfälle
- DevOps, SRE und ITIL
- OODA und SRE Reaktion auf Vorfälle
- Geschlossene Kreislaufsanierung und ihre Vorteile
- Schwärmen - ein Denkanstoß
- KI/ML für ein besseres Störungsmanagement
Modul 7: Chaos Engineering
- Komplexität bewältigen
- Chaos Engineering definiert
- Schnelle Fakten über Chaos Engineering
- Die Entstehungsgeschichte des Chaos-Affen
- Wer macht sich Chaos Engineering zu eigen?
- Mythen des Chaos
- Chaos-Engineering-Experimente
- GameDay-Ãœbungen
- Sicherheit Chaos Engineering
- Chaos Engineering Ressourcen
Modul 8: SRE ist die reinste Form von DevOps
- Schlüsselprinzipien von SRE
- SREs helfen, die Zuverlässigkeit über das gesamte Produktspektrum hinweg zu erhöhen
- Metriken für den Erfolg
- Auswahl der Zielgebiete
- SRE-Ausführungsmodell
- Kultur und Verhaltenskompetenz sind entscheidend
- SRE Fallstudie
Aufgaben/Ãœbungen nach dem Unterricht
- Nicht-abstraktes Design in großem Maßstab (nach Tag 1)
- Beobachtbarkeit und Ãœberwachung (nach Tag 2)
- Chaos Engineering Instrumentation
Einführung in den KursModul 1: SRE-Anti-Patterns
- Umbenennung von Ops oder DevOps oder Dev in SRE
- Benutzer bemerken ein Problem, bevor Sie es bemerken
- Messen bis zum Rand
- Falschmeldungen sind schlimmer als ...
Mehr Informationen >>