Récupération de données Arcserve

raid-expert.com tél. 01 75 43 20 20

Qu'est-ce qu'un système RAID ?

A l'origine, telle qu'elle était envisagée en 1987 par Patterson, Gibson et Katz de l'Université de Californie à Berkeley, l'acronyme RAID désignait un «Redundant Array of Inexpensive Disks». En bref un grand nombre de petits disques moins coûteux pouvaient être utilisés à la place d'un seul beaucoup plus cher et de plus grande capacité. (Ou même de créer un disque qui était plus grand que n'importe quel disque disponible à l’époque).

Patterson, Gibson et Katz sont allés plus loin en proposant une variété d'options qui non seulement conduisent à l'obtention d'un plus gros disque dur pour un moindre coût, mais pouvaient en même temps également améliorer les performances et la fiabilité du système RAID. En partie l’impératif d’améliorer la fiabilité venait de la réduction du MTBF (Mean Time Between Failure – temps moyen entre pannes) par l’emploi de plusieurs disques durs, en effet le MTBF global étant celui d’un disque dur divisé par le nombre de disques durs dans le système RAID. De ce fait la fiabilité du système était plus faible que celui d’un seul disque dur.

Aujourd'hui RAID est généralement décrit comme un «Redundant Array of Independent Disks», la technologie a évolué et même les disques les plus coûteux ne sont pas particulièrement chers.

Cinq niveaux de RAID ont été définis à l'origine, certains orientés vers la performance, d'autres à une meilleure tolérance aux pannes, si le premier d'entre eux n'a eu aucune «redondance» ou «tolérance de panne» il ne peut être vraiment considéré comme un RAID.

Alors qu'un haut niveau de sécurité des données supplémentaire est ajouté par certains types de RAID, la récupération de données d’un système RAID peut être nécessaire car plusieurs pannes de disques peuvent se produire en même temps. De même les caractéristiques de protection d’un RAID ne prennent pas en compte la corruption du système de fichiers ou la suppression accidentelle de fichiers.

La répartition des données (data striping)

Les niveaux des RAID 0 (striping), et RAID 2 - RAID 5 utilisent une technique connue sous le nom «data striping ». Plutôt que de remplir un disque dur puis de passer au suivant (spanning), une unité de transfert des données connue sous le nom de «data striping » est définie. Cela pourrait être de 512 octets multiplié par le nombre de disques, cela peut-être plusieurs méga-octets, mais habituellement il est de l'ordre de 64 Ko à 256 Ko. Un « stripe de données» est comme une unité de blocs de taille égale de données écrite sur chaque disque dur de façon séquentielle. Par exemple 64 Ko écrite sur le disque 0, puis 64 Ko écrite sur le disque 1 et ainsi de suite jusqu'au dernier disque su système RAID. Ces sections de 64 Ko de données écrites sur l’ensemble des disques forment un «stripe ».

Cette technique, d’équilibre de charge entre les disques, fournit un gain de performance lors de l'écriture de gros volumes de données de façon séquentielle. Écrire des données sur un disque, puis sur l'autre, au moment où vous revenez sur le premier disque, il a eu suffisamment de temps pour valider les données et être prêt à en recevoir plus.

Type de Récupération

Système de Fichiers

Type de RAID

Disques défectueux

Système de fichiers corrompu

Composants défectueux

Perte de configuration

Dégâts physiques

Dégât des eaux, incendie

Ext2, Ext3, Ext4

UFS, JFS, XFS

FAT, FAT32, NTFS

HFS, HFS+

FILES-11 (ODS 1-5)

RAID matériel & logiciel

RAID 0+1

RAID 50...

RAID matériel ou logiciel ?

Le protocole du système RAID décrit comment les données sont stockées mais pas comment les disques sont gérés. Un système RAID peut être assuré soit par un dispositif de commande (carte contrôleur) présent dans le système hôte offrant un volume de données unique (RAID matériel) mais peut aussi être fourni par le système d'exploitation. Le système d’exploitation gérant une couche d'abstraction (couche logicielle) par laquelle il voit plusieurs disques, mais présente un seul volume de données pour les applications.

Le RAID matériel présente les avantages de pouvoir être transféré plus facilement sur un autre système et son fonctionnement ne nécessite pas de ressources du système d’exploitation.

Les implémentations du RAID matériel diffèrent. Certains utilisent un contrôleur RAID dans le système hôte, reliés à plusieurs disques durs mais vu par le système d’exploitation comme un seul disque. D'autres implémentations proposent un contrôleur RAID monté avec les disques dans un boitier externe lui-même branché sur un contrôleur SCSI standard au système hôte.

Cette dernière application est très indépendante du type de disque dur utilisé dans le boitier (disque à bas coûts de type IDE ou SATA), avec un boitier contenant une interface évoluée et performante de type SCSI. Ainsi le système hôte avec son contrôleur SCSI peut dialoguer et gérer ce type de RAID externe bon marché.

Parité ou Error Correction Code (ECC)

Le RAID utilise la parité pour lui permettre de reconstruire les données d'un disque en panne. Pensez à une équation arithmétique de base. Prenez la somme de 5 + 3 = 8, simple à comprendre et calculer, même en introduisant une inconnue comme par exemple 5 + n = 8, n + 3 = 8 ou 5 + 3 = n, l’on peut toujours retrouver la valeur n. Avec le système RAID le processus diffère en ce que les valeurs ne sont pas additionnées, cela pourrait ne pas fonctionner car pour chaque séquence d'octets de données de travail il n'y a pas qu'un seul octet pour stocker la réponse. Ainsi le système RAID en utilisant un procédé de type XOR de la valeur de chaque octet peut ensuite stocker le résultat dans l'octet d’ECC.

Les données d’ECC calculées à partir des données écrites sont stockées et si un disque dur tombe en panne les données qui étaient sur ce dernier peuvent être recalculées. Pour les systèmes RAID plus récents, la parité supplémentaire est calculée comme un lot de parité ne traitant que de la perte d'un disque dur. Prenez par exemple la somme n + x = 8, vous ne pouvez pas retrouver les valeurs initiales de n et x.

Remplacement des disques «à chaud» (hot spare)

Un disque "Hot Spare" est un disque dur connecté au contrôleur RAID mais n'est pas utilisé dans le cadre de ce RAID. Son objectif est de le mettre en jeu automatiquement par le RAID dans le cas d'une panne d’un disque unique, en supprimant le temps d’une intervention humaine pour maintenir la continuité de service et l’intégrité du système RAID.

La récupération de données sur un système RAID

Alors que beaucoup de systèmes RAID offrent une protection supplémentaire contre les pannes matérielles, un système RAID peut toujours tomber en panne avec comme résultat des données vitales devenant inaccessible. Le RAID 5, par exemple, peut survivre à un disque défectueux, mais pas à deux. Le processus de récupération de données d’un RAID est différent pour chaque type de RAID, une procédure de récupération de données RAID 5 peut utiliser les informations de correction d'erreur (ECC) qui est codé, alors que pour un RAID 1 (miroir) désynchronisé sans possibilité de reconstruction, les données de chaque disque défectueux peuvent être utilisées pour reconstruire les données d'origine.

RAID 0 ou Striping RAID 1 ou Mirroring RAID 5 RAID 10

Procédure

Références