11 conseils pour l'exploitation de votre infrastructure

Posté par sebbrochet le 8 decembre 2009

Vous avez conçu votre infrastructure et vous finalisez sa mise en production. Il est maintenant temps de pensez à son exploitation.

Je vous fais part ici de quelques conseils que j’essaie d’appliquer au quotidien.

Dimensionner vos contrats de support selon vos besoins

Certains matériels sont réparables car ils sont standards et ouverts. Dans le cas de matériels spécifiques et/ou fermés, seuls les constructeurs sont à même de diagnostiquer les pannes. Dans ce cas, un contrat de support est vital pour mitiger les pannes et obtenir rapidement un équipement de nouveau opérationnel.

Prévoir du matériel de rechange

Vous avez bien sûr souscrit aux contrats de support pour vos serveurs. Le support garantit dans le meilleur des cas, un temps de rétablissement de 4H. Et parfois 4H c’est trop long et vous ne pouvez pas vous permettre d’attendre aussi longtemps avant de restaurer un système. Il est alors utile de conserver quelques composants de rechange (disques durs, alimentations, ventilateurs, cartes réseau, carte fibre, câbles, …) pour faire la réparation en interne. On notera aussi qu’en dehors d’une infogérance complète et onéreuse, le technicien du support devra être accompagné et aidé par vous ou un de vos collaborateurs sous peine de résultats inattendus sur le reste de la plateforme !

Mettre en place des méthodes d’accès de secours

Si les équipements réseau en entrée de votre plateforme n’acceptent plus de connections de l’extérieur et si vous n’êtes pas sur place, il faudra soit faire intervenir le personnel de l’hébergeur soit vous déplacer personnellement. Avec une solution d’accès de secours, vous êtes en mesure d’accéder à la plateforme et potentiellement capable de reconfigurer l’équipement défaillant s’il s’agit d’une panne logicielle.

Contrôler les accès aux systèmes

Les accès physiques au site d’hébergement et aux systèmes doivent être contrôlés et limités aux personnes qui ont besoin d’intervenir sur les équipements. Les accès exceptionnels passent par une demande et une validation des différents responsables.

Créer des identifiants nominatifs

Un identifiant nominatif permet de tracer facilement les accès. Quand le collaborateur quitte la société, le compte est supprimé.

Utiliser un journal centralisé

Les différentes alertes et les erreurs des différents composants de la plateforme doivent être collectées et stockés sur un serveur centralisé pour faciliter leur exploitation.
Une technologie comme syslog répond à ce besoin.

Ne pas externaliser la gestion des sous-systèmes développés en interne

Les sous-systèmes développés en interne sont souvent liés au savoir-faire de l’entreprise. Un personnel externe manquera de connaissances spécifiques pour gérer ces sous-systèmes et risquent de ne pas fournir le niveau de service requis (réactivité, adéquation de la réponse par rapport à la demande).

Mettre en place une solution de Supervision

Pour connaître l’état de votre infrastructure, il faut des indicateurs vérifiés régulièrement et une remontée d’alertes quand les valeurs sont hors-normes.
C’est le propre d’une solution de supervision comme Nagios par exemple.

Gérer les Incidents et les Problèmes

Les incidents correspondent à un évènement qui sort du cadre normal de fonctionnement de votre infrastructure. Grâce à votre solution de supervision, cet évènement a été détecté et remonté aux personnels en charge des incidents. L’objectif est alors de restaurer le fonctionnement normal au plus vite quitte à utiliser des contournements. Si l’incident est récurrent, il est traité comme un problème. L’objectif est, après avoir implémenté un contournement, de définir les causes premières afin de concevoir une solution définitive. Ce qui peut prendre du temps ou ne pas être possible sans moyens conséquents.

Gérer les Changements et les Mises en Production

Le SI évolue pour s’adapter aux nouveux besoins, en maitrisant ces changements vous sélectionnez les changements nécessaires et assurez une transition de votre plateforme entre 2 états stables. La mise en production suit des procédures et permet d’éviter des erreurs lors de l’application des changements.

Faire une inspection visuelle régulière des équipements

Plusieurs paramètres ne sont pas mesurés ou ne sont pas mesurables. Il est bon de visiter le site d’hébergement de votre infrastructure régulièrement, ce qui vous permet de voir les évolutions de l’environnement, de la poussière, de la chaleur, du bruit, de l’usure, …

Est-ce que votre infrastructure est infogérée ou exploitée en interne ?
Avez-vous aussi des conseils à partager ?