Bomzai › Insights › Cas clients
Observabilité cloud full-stack
Contexte
Producteur d'énergies renouvelables (800 employés, 500MW installés). Infrastructure cloud AWS multi-comptes (prod, staging, dev). Aucune observabilité centralisée : logs dispersés, métriques non corrélées, alertes bruitées. Équipe SRE de 3 personnes submergée par les incidents non détectés en amont.
Problème & Défi
Logs dispersés dans 12 comptes AWS – aucune vue consolidée pour le troubleshooting MTTR moyen de 4h car root cause analysis manuelle et fragmentée 60% des incidents découverts par les utilisateurs avant l'équipe SRE Alertes bruitées : 200 alertes/jour dont 85% de faux positifs Aucune corrélation entre métriques infra, applicatives et métier Coût caché estimé à 400K€/an en temps perdu et incidents prolongés
Solution & Livrables
Stack observabilité full-stack mise en production (Datadog/Grafana) avec corrélation logs-métriques-traces sur les 12 comptes AWS Dashboard SRE temps réel - MTTR divisé, passant de 4h à 45min grâce à la root cause analysis automatisée Système d'alerting intelligent, faux positifs tombés de 85% à 12%, 90% des incidents détectés avant impact utilisateur Corrélation métriques infra ↔ production éolienne → détection proactive des dérives de performance Runbooks automatisés pour les 15 scénarios d'incident les plus fréquents