Page suivante Page précédente Table des matières

5. Test de la couche RAID

Si vous utilisez le RAID pour améliorer la tolérance aux pannes, vous voudrez surement tester votre installation afin de vérifier son fonctionnement. Comment simule-t-on donc une défaillance ?

En résumé, on ne peut pas à moins de titiller un disque au lance-flammes pour "simuler" une défaillance. On ne peut pas prévoir ce qui va se passer en cas de perte d'un disque. Il pourrait très bien verouiller électriquement le bus et rendre tous les disques sur le bus inaccessibles. Je n'ai néanmoins jamais entendu d'histoire de ce genre. Le disque signalera peut-être une erreur de lecture/écriture à la couche IDE ou SCSI qui permettra à son tour à la couche RAID de gérer la situation avec élégance. Heureusement, les choses se passent assez souvent ainsi.

5.1 Défaillance d'un disque

Débranchez le disque. Ceci n'est à faire qu'avec le système hors-tension . Inutile de jouer les aventuriers de l'ajout/suppression à chaud pour vérifier que les données supportent bien la disparition d'un disque. Arrêtez le système, débranchez le disque et redémarrez le de nouveau.

Syslog et /proc/mdstat permettent de vérifier l'état de la matrice.

N'oubliez pas que vous devez employer du RAID-{1,4,5} pour que la matrice soit capable de supporter la défaillance d'un disque. Les modes linéaire et RAID-0 échouent complètement dans ce genre de situation.

Une fois le disque rebranché (avec le courant arrêté, merci), on ajoutera le ``nouveau'' disque au système RAID avec la commande raidhotadd.

5.2 Corruption de données

Le RAID, qu'il soit matériel ou logiciel, suppose que si une écriture ne renvoie pas une erreur, alors elle s'est déroulée normalement. Donc, si un diseue corrompt les données sans retourner d'erreur, les données seront corrompues. Bien que ce soit fortement improbable, on ne peut l'exclure et cela aura pour conséquence la corruption du système de fichiers.

Le RAID ne peut rien faire face à ce genre de défaillances et il n'a pas été prévu pour de toutes façons. Il est donc inutile de déclencher sciemment des corruptions de données (avec dd par exemple) pour vérifier le comportement de la couche RAID. A moins de modifier le superbloc RAID, il est vraisemblable que la couche RAID ne remarque rien mais que le système de fichiers soit détruit.

Il s'agit du fonctionnement normal du système. Le RAID ne garantit pas l'intégrité des données. Il permet juste de les conserver si un disque tombe en panne (pourvu qu'on utilise un niveau de RAID supérieur ou égal à 1).


Page suivante Page précédente Table des matières