Maandag bewoog het internet op het ritme van een storing bij Amazon Web Services die begon in de veelgebruikte regio US East 1 in Virginia en zich razendsnel vertakte naar apps en websites overal ter wereld. Van werkplekken in Londen en Tokio tot kassa’s die geen betalingen meer konden verwerken en klanten die hun vliegticket of kappersafspraak niet konden wijzigen.
Amazon meldde in de namiddag dat alle clouddiensten weer normaal draaiden en voegde eraan toe dat enkele onderdelen zoals Config, Redshift en Connect nog een achterstand in berichten zouden wegwerken, gebruikers merkten echter dat sommige platforms pas later volledig op adem kwamen. Volgens de technische toelichting lag de oorsprong in een subsysteem dat de gezondheid van netwerk load balancers bewaakt binnen het interne netwerk van EC2, in gewone taal kon verkeer niet meer betrouwbaar worden verdeeld en viel een schakel uit die veel andere schakels voedt.
De storing legde opnieuw bloot hoezeer alledaagse digitale gewoonten leunen op een klein aantal hyperscalers, in het Verenigd Koninkrijk waren onder meer Lloyds Bank en Bank of Scotland geraakt en hadden providers als Vodafone en BT haperingen. Ook de Britse belastingdienst kampte met problemen op de site, wereldwijd registreerde storingsdienst Downdetector miljoenen meldingen en werd duidelijk dat de impact breder was dan een sector of een land.
Bekende apps gingen even op zwart of schakelden terug naar minimale functies, Reddit, Snapchat en Roblox waren hinderlijk traag, videodiensten en digitale portemonnees zoals Zoom en Venmo kregen klachten binnen, handelsplatforms als Coinbase en Robinhood rapporteerden verstoringen. En ook Amazon zelf voelde de tik op de winkelsite, op Prime Video en via Alexa, in de spelwereld waren Fortnite, Clash Royale en Clash of Clans onderdeel van het lijstje dat tijdelijk niet naar wens functioneerde, Lyft kende in de Verenigde Staten eveneens uitval.
De oorzaak werd gerapporteerd bij het domeinnaamsysteem dat de route wijst naar de juiste API van DynamoDB, de database die talloze toepassingen gebruiken voor opslag van profielen en realtime gegevens. Daar maakte een foutieve verwijzing dat veel software niet langer wist waar zij moest aankloppen, het hielp niet dat US East 1 voor veel diensten de standaardregio is en dat dezelfde locatie eerder grote storingen kende, waardoor de vraag naar spreiding en redundantie opnieuw op tafel ligt.
Beurzen reageerden opvallend laconiek, het aandeel Amazon sloot hoger, toch was de economische onderstroom minder vrolijk omdat uren downtime bij grote bedrijven al snel optellen tot miljoenen aan misgelopen productiviteit en omzet, verzekeraars herinnerden eraan dat de indirecte kosten vaak pas achteraf zichtbaar worden wanneer SLA’s, boetes en imagoschade in kaart zijn gebracht.
Wat blijft hangen is een werkopdracht, ontwikkelteams krijgen van deskundigen al jaren dezelfde boodschap mee, bouw fouttolerantie die verder reikt dan een datacenter of een regio. En test failover op echte belasting in plaats van op de tekentafel en documenteer afhankelijkheden van externe API’s alsof het kritieke infrastructuur betreft. Wie die discipline tot routine maakt merkt bij de volgende storing vooral kortere pijnen en behoudt vertrouwen bij klanten die geen technische verklaringen willen maar werkende diensten.