Site Reliability Engineering

Concept

Was ist das?

Site Reliability Engineering oder SRE ist eine Disziplin, die Betriebs- und Softwaretechnik miteinander verbindet. Letzteres wird speziell auf Infrastruktur- und Betriebsprobleme angewandt. Das bedeutet, dass Site Reliability Entwickler keine Produktfunktionen entwickeln, sondern Systeme für den Betrieb von Anwendungen. Es gibt Ähnlichkeiten mit DevOps, aber während DevOps sich darauf konzentriert, den Code in die Produktion zu bringen, stellt SRE sicher, dass der Code in der Produktion richtig funktioniert.

Probleme, die damit gelöst werden

Um sicherzustellen, dass Anwendungen zuverlässig laufen, sind zahlreiche Funktionen erforderlich, von der Leistungsüberwachung über Warnmeldungen und Fehlersuche bis hin zur Fehlerbehebung. Ohne diese Funktionen können Systembetreiber nur auf Probleme reagieren, anstatt proaktiv an deren Vermeidung zu arbeiten - Ausfallzeiten sind nur eine Frage der Zeit.

Wie es hilft

Ein SRE-Ansatz minimiert die Kosten, die Zeit und den Aufwand des Softwareentwicklungsprozesses, indem das zugrunde liegende System kontinuierlich verbessert wird. Das System misst und überwacht kontinuierlich die Infrastruktur und die Anwendungskomponenten. Wenn etwas schief läuft, zeigt das System den Site Reliability Entwicklern, wann, wo und wie sie es beheben können. Dieser Ansatz hilft bei der Entwicklung hoch skalierbarer und zuverlässiger Softwaresysteme, indem er die betrieblichen Aufgaben automatisiert.