SRE: De ‘feedback loop’ van foutenbegrotingen

Rik Broers

Rik Broers

SRE

In dit artikel wil ik een idee achter SRE delen dat een sterke indruk op mij heeft gemaakt. Ik heb elektrotechniek gestudeerd - Ook al ben ik het meeste waarschijnlijk vergeten. Een van de concepten die je leert bij elektrotechniek, is het concept van "feedback loops".

Feedback loops

Zie het als volgt: je rijdt in je auto en je hebt de cruise control ingeschakeld. Als je een lichte helling oprijdt, verliest je auto snelheid. De cruise control ziet het verschilwe je gewenste snelheid en de huidige snelheid. Hoe groter het verschil, hoe meer “gas” je auto zal geven om terug te komen op de door u ingestelde snelheid. Toen ik hoorde over het SRE-concept “Error Budgets”, wist ik dat er iets bijzonders was aan deze SRE-praktijk.

Het meten van de gebruikerservaring

Het doel van SRE is het meten en verbeteren van de gebruikerservaring. In het verleden zouden we monitoring uitvoeren op basis van de technische maatregelen die out of the box beschikbaar zijn. SRE kijkt expliciet naar het meten van de gebruikerservaring.

“100%? Schijf vol? Doe geen moeite, iemand zal er morgen naar kijken.”

Maar:

“Hebben de gebruikers er last van? Maak iedereen wakker en los het op.”

Het doel van een toepassing of dienst is een bedrijfswaarde te leveren. Deze waarde gaat verloren indien de toepassing niet naar behoren functioneert. Binnen SRE gebruiken we Service Level Objectives (SLO’s) om kwantificeerbaar te meten of er bedrijfswaarde verloren gaat. Of als we het vanuit het oogpunt van de gebruiker bekijken, meten SLO’s de tevredenheid van de gebruiker. SRE gebruikt Service Level Indicators (SLI’s) om dit te meten. Een SLI wordt als volgt gedefinieerd:

Cloud Legends Goede Gebeurtenissen - Slechte Gebeurtenissen

Bepalen hoe succes eruit ziet

Nu we dit percentage hebben, is het volgende wat we doen bepalen hoeveel “fouten” we accepteren. Dit wordt ons “foutenbudget”.

Het foutenbudget biedt een duidelijke, objectieve metriek die bepaalt hoe onbetrouwbaar de dienst binnen een tijdsvensterwezijn. Deze metriek haalt de politiek weg uit de onderhandelingenwede SRE’s en de productontwikkelaars bij de beslissing hoeveel risico’s toe te staan.

Error budgets als feedback loops

Het doel van SRE is om een feedbackloop op te zetten waarmee u kunt beslissen hoeveel moeite u moet doen om de gebruikerservaring te verbeteren. Als je foutenbudget op is, betekent dit dat u meer tijd en moeite moet steken in het verbeteren van je gebruikerservaring. Een van de manieren om dit te implementeren, is om een verbeteringsverhaal toe te voegen aan je backlog als je budget op is. Andere implementaties blokkeren alle releases volledig totdat het systeem weer in budget is. Hoe streng dit voor je organisatie is, zult u jemoeten uitzoeken.

Laatste gedachte

Er is nog een onderdeel van elegantie. Waarbij “onderbesteding” betekent dat je gebruikerservaring eronder lijdt. “Overbesteding” is verspilling. Het bouwen van een systeem dat betrouwbaarder is dan nodig, levert de gebruiker misschien geen merkbare verbetering op. Van 99,99% naar 99,999% gaan kan ook gewoon een extra 0 kosten voor je engineering. Dit vereist meer toezicht, redundantie, automatisering en ondersteuning. Daarom vind ik de feedbacklus van het foutenbudget zo elegant.

Wil je de legends ontmoeten?

Kom in contact!

    Don't hesitate to get in touch!