Ce que nous surveillons vraiment en production

En production, « up » n'est pas la même chose que « utilisable ».
En production, "up" n'est pas la même chose qu'utilisable.
Beaucoup d'équipes surveillent la santé de l'infrastructure. Bien moins surveillent la douleur de l'utilisateur.
Après avoir fait tourner des centaines de nœuds blockchain, nous avons appris que des dashboards tout verts peuvent être profondément trompeurs.
Le CPU a l'air bon. La mémoire a l'air bonne. Le disque a l'air bon. Et le produit est déjà en train de se dégrader.
Les signaux qui comptent le plus sont différents.
La latence p95, pas la moyenne. Parce que les moyennes cachent les utilisateurs qui vivent déjà une mauvaise expérience.
Le taux d'erreur par chemin critique, pas globalement. Parce qu'un endpoint cassé compte plus qu'un joli chiffre global.
Les patterns de lag et de redémarrage, pas seulement l'uptime. Parce qu'un service peut être techniquement vivant et échouer en pratique.
C'est ça, le vrai piège du monitoring : les équipes regardent des machines, alors que les utilisateurs ressentent des systèmes.
La bonne question de monitoring n'est pas "est-ce que c'est up ?". C'est "est-ce que c'est toujours utilisable ?".
En production, cette différence compte plus que la plupart des équipes ne le pensent.