Configurer des alertes et des notifications sur un superviseur

1. Introduction à la supervision et aux alertes

1.1 Qu'est-ce que la supervision ?

La supervision (ou monitoring) consiste à surveiller en temps réel l'état de santé et les performances d'un parc informatique (serveurs, services, équipements réseau, applications, etc.). L'objectif est de détecter rapidement toute anomalie ou dégradation de service avant qu'elle ne devienne critique pour l'entreprise.

1.2 Rôle des alertes et notifications

Les alertes sont des signaux émis par l'outil de supervision lorsque certains indicateurs (metrics) dépassent un seuil prédéfini. Les notifications informent ensuite les équipes concernées via différents canaux (e-mail, SMS, webhook, intégration ITSM, etc.), afin qu'elles puissent réagir rapidement.

Ces alertes et notifications reposent sur la configuration de seuils et sur une logique de déclenchement (trigger) adaptée au contexte technique et métier.


2. Paramétrage des seuils et déclenchement des alertes

2.1 Les seuils de supervision (WARNING, CRITICAL, etc.)

Dans la plupart des outils de supervision (Nagios, Centreon, Zabbix, Icinga, etc.), on retrouve souvent les mêmes conventions de seuils :

Exemple : seuils de supervision CPU

Cela permet de détecter en amont une surcharge éventuelle (en WARNING) avant qu'elle ne devienne critique (CRITICAL).

2.2 Comment définir les bons seuils ?

La configuration des seuils doit être adaptée à l'environnement et aux exigences de l'entreprise. Pour les définir :

2.3 Déclenchement (trigger) d'une alerte

Une alerte est déclenchée lorsque la valeur mesurée dépasse (ou repasse en-dessous, selon la logique) l'un des seuils configurés.

Dans chaque cas, si la métrique se situe dans la plage WARNING ou CRITICAL, le logiciel change l'état du service et génère l'alerte correspondante.

Durée et hystérésis

Certains outils permettent de configurer un hystérésis ou une durée minimum avant de changer d'état. Cela évite les alertes intempestives en cas de fluctuations très ponctuelles. Par exemple, ne générer une alerte CRITICAL que si la métrique reste au-dessus de 85 % pendant plus de 5 minutes.


3. Mécanismes de notification

Une fois l'état d'un service détecté comme étant en WARNING ou CRITICAL, l'outil doit notifier les personnes ou systèmes appropriés. Plusieurs canaux de notification sont généralement disponibles.

3.1 Notification par e-mail

C'est la méthode la plus courante. Les avantages :

Configuration de base :

3.2 Notification par SMS

Les SMS sont utiles pour alerter en cas de criticité élevée ou en dehors des heures de bureau, lorsque l'email pourrait être manqué.

Méthodes courantes :

Dans l'outil de supervision, on configure le script ou l'API pour émettre un SMS lorsque la condition CRITICAL (ou WARNING) est atteinte.

3.3 Webhooks et intégrations avancées

Les webhooks sont des appels HTTP envoyés à un endpoint externe lorsqu'un événement se produit. Ils permettent d'intégrer la supervision avec :

La configuration d'un webhook consiste généralement à spécifier :

3.4 Intégration avec des outils de ticketing

Beaucoup d'entreprises utilisent un outil de ticketing (ex. GLPI, ServiceNow, Jira Service Management, OTRS, etc.). L'idée est de créer automatiquement un ticket dans l'outil lorsqu'une alerte survient.

Méthodes courantes :

Lorsqu'une alerte CRITICAL est détectée, on peut ainsi générer un ticket avec un résumé du problème et un lien vers la plateforme de supervision pour diagnostiquer plus en détail.


4. Bonnes pratiques pour la configuration des alertes et notifications


5. Comparatif rapide sur la configuration dans Nagios, Centreon et Zabbix

5.1 Nagios

define service {
use generic-service
host_name MonServeur
service_description Check CPU
check_command check_nrpe!check_cpu!70!85
...
}

5.2 Centreon

5.3 Zabbix


6. Conclusion

La configuration des alertes et notifications est un élément crucial pour garantir une supervision efficace. Les seuils (WARNING, CRITICAL, etc.) doivent être soigneusement calibrés pour refléter la réalité de l'environnement surveillé. Les notifications doivent être adaptées aux besoins de l'organisation : un simple e-mail pour un WARNING peut suffire, tandis qu'un CRITICAL en pleine nuit peut nécessiter un SMS ou la création immédiate d'un ticket.

Points clés à retenir :


⬆️ Retour en haut de la page