Bomzai › Insights › Cas clients
Architecture multi-cloud Data & IA
Contexte
Banque d'investissement avec 15 modèles ML en production déployés sur des VMs dédiées. Chaque modèle a sa propre VM avec son propre environnement Python, ses propres dépendances et sa propre version de framework. Les coûts GPU sont de 500K€/an avec un taux d'utilisation de 15% (les GPU tournent 24/7 mais ne sont utilisés que pour l'inférence ponctuelle).
Problème & Défi
Coûts GPU de 500K€/an avec 15% d'utilisation réelle : 85% de gaspillage. 15 VMs avec 15 environnements différents : maintenance cauchemardesque et conflits de versions. Déploiement d'un nouveau modèle : 1 semaine de configuration manuelle d'une nouvelle VM. Pas d'auto-scaling : les modèles ne scalent pas avec la demande (lent en pic, gaspillage en creux). Aucune standardisation : chaque data scientist configure son environnement à sa manière.
Solution & Livrables
Cluster Kubernetes GPU avec orchestration intelligente des workloads ML (batch et serving). Auto-scaling horizontal et vertical : les pods GPU s'allument/s'éteignent en fonction de la demande réelle. CI/CD ML intégré : déploiement d'un modèle en production en 1 heure vs 1 semaine. Environnements standardisés : images Docker certifiées avec les frameworks ML validés. Monitoring : coûts par modèle, utilisation GPU, latence d'inférence, métriques de performance. Résultats mesurables dès le premier mois.