Ontrack Data Recovery®

Comment récupérer des données sur NetApp

 

La perte de données est une préoccupation permanente pour les fabricants de systèmes de stockage. Il en est de même pour la capacité de ces systèmes à fournir une bande passante adaptée au transfert des données.

Des méthodes de stockage de fichiers de données toujours plus performantes arrivent sans cesse sur le marché, mais elles n’empêchent pas pour autant toutes les pannes et les pertes de données attenantes qui restent relativement fréquentes.  Les pertes de données peuvent affecter, dans une portée limitée, un faible nombre d’utilisateurs. D’autres peuvent affecter des divisions entières voire toute une entreprise. Les techniciens informatiques peuvent alors légitimement s’interroger sur l’origine de la panne alors qu’ils pensaient avoir tout mis en œuvre pour la protection du système.

Netapp, une architecture de stockage alternative

En 1992, NetApp propose, à l’instar d’autres entreprises, un choix unique à l’architecture DAS (Direct Attached Storage) : un serveur et des fonctionnalités de stockage en local, les données étant accessibles au travers de protocoles réseau. En 1994, NetApp (Network Appliance) présente pour la première fois à la société USENIX son système de stockage informatique consolidé avec son système d’exploitation et ses connexions réseauavec de  mécanismes de stockage intégrés. Sur le marché informatique, l’Appliance réseau devient l’unique concept réunissant le système d’exploitation, l’équipement matériel et le système de fichiers dans un même boîtier, diminuant ainsi les efforts de gestion. Ce système fiable devenait très simple à installer puisqu’il suffisait de le brancher. La simplicité de gestion permet de surcroit de mieux contrôler  les coûts d’exploitation, ce qui n’a pu qu’intéresser les techniciens informatiques et les dirigeants d’entreprise.

Le système Netapp reposait sur les concepts de stockage de données suivants :

  • Les protocoles NFS, développés par Sun Microsystems, Inc,

  • La technologie de stockage RAID, développée par D .Patterson, G. Gibson et R. Kats, de l’université Berkeley de Californie,

  • Le système d’exploitation UNIX, développé par le département de génie électrique et informatique de Berkeley,

  • Le système de fichiers Episode, développé par TransArc Corporation.

L’Appliance de Netapp est dotée d’un système d’exploitation du matériel propriétaire, Data ONTAP, et d’un nouveau système de fichiers, WAFL ( Write Anywhere File Layout), qui apportent deux qualités très recherchées, la performances et fiabilité.  Le système de fichiers WAFL enregistre les métadonnées (données clés du système de fichiers qui décrivent les fichiers et la localisation logique du flux de données) dans le flux de données des fichiers. L’inode (nœud d’index) UNIX est utilisé en tant que descripteur des métadonnées. Cependant, alors que les systèmes de fichiers basés sur UNIX conservent habituellement l’inode en un lieu précis, le système de fichier WAFL  considère l’inode et le flux de données comme un objet du volume. Cela lui permet d’ « écrire n’importe où » (Write Anywhere).  Pour optimiser les performances, le système fragmente les fichiers. Les opérations d écriture sont programmées par le système d’exploitation en conformité avec la configuration RAID du pool de stockage. La lecture et l’écriture sont ainsi optimisées et les temps d’exécution réduits.

Le système de fichiers de NetApp intègre également la technique COW (Copy-on-Write), qui réplique les données selon un programme spécifique, créant ainsi des « snapshots » (instantanés) comme les nomme NetApp. Ces snapshots sont établis sous le système Data ONTAP afin que  seuls les blocs modifiés du flux de données  d’un fichier soient sauvegardés.  Pour exemple, il est possible de considérer le comportement d’un fichier constitué de 1000 blocs, chacun pouvant stocker 4000 octets de données soit un fichier de 4 Mo.  Ce fichier est ouvert et actualisé à plusieurs reprises au cours d’une journée de travail. Grâce à la technologie snapshot, seules les parties modifiées de ce fichier sont dupliquées à l’heure préprogrammée. De cette manière, si le fichier est rectifié ou supprimé accidentellement, l’administrateur système peut toujours se référer au dernier instantané effectué avant la perte de données et restaurer le fichier. Les snapshots font partie intégrante du système de fichiers WAFL, le processus de stockage s’en trouve optimisé et sécurisé, tout comme la gestion des données.

Ce système de sécurité est renforcé, dans les derniers systèmes développés par NetApp, par l’écriture de journaux très détaillés qui consignent les modifications du système de fichiers. Un système transactionnel assure la cohérence de l’ensemble. Ces transactions sont gardées dans une mémoire non-volatile ou flash. En cas de panne inattendue du système, le système de fichiers identifie avec précision les opérations interrompues et met à jour en conséquence les métadonnées WAFL. Ces opérations ont lieu dans un espace de stockage isolé, la fiabilité du système de fichiers s’en trouve accrue : le nombre de vérifications requises est limité et l’accessibilité du système est accélérée.

Pannes et pertes de données impromptues

Les sinistres entraînant la perte de données sont dans la plupart des cas des conséquences d’événements imprévus. Des évènements programmés ont parfois des effets  inattendus du fait de risques ignorés, d’erreurs humaines ou d’équipements défectueux. Ces accidents peuvent amener des répercussions en chaine, renforçant d’autant leur impact.  Les conséquences de ces accidents qui surviennent toujours au mauvais moment peuvent  être dévastatrices s’ils ne sont pas contrôlés rapidement.

Même les meilleures technologies matérielles et logicielles ne peuvent éviter les erreurs mêmes minimes, au niveau des couches d’abstraction de données des processus de stockage physiques et logiciels. La multiplication en cascade de ces erreurs peut aller jusqu’à anéantir l’ensemble des données.

Les pertes de données peuvent se produire  sur une ou plusieurs de ces couches :

  • La couche de stockage physique, disques durs compris, jusqu’aux supports électroniques et magnétiques,

  • La couche LUN (Logical Unit Number) où les périphériques physiques sont rassemblés au sein d’unités de stockage, comme dans les cas des systèmes RAID : la panne peut être due à la perte de configuration du système de stockage ou au dysfonctionnement du matériel contrôlant cette configuration,

  • La couche LVM ( Logical Volume Management), où de nombreuses LUN sont configurées au sein de « pools de stockage » ou des parties de LUN sont regroupées en volumes présentés au système d’exploitation en tant que capacité de stockage utilisable : la panne peut provenir de la configuration ou de l’indisponibilité de deux couches successives essentielles au bon fonctionnement de la LVM,

  • La couche du système de fichiers, où s’opère  le lien entre les métadonnées et les flux de données des fichiers. Il s’agit de la représentation hiérarchique de l’organisation des fichiers dont les utilisateurs et les applications se servent pour lire ou écrire sur les sytème de stockage. La panne peut résulter de la corruption des métadonnées ou de l’inaccessibilité des flux de données.

Les solutions de NetApp, du fait de leur conception intégrée, s’avèrent particulièrement complexes, car elles doivent tenir compte de toutes les couches composant les systèmes de stockage modernes. En cas de panne d’une ou de plusieurs des couches qui précèdent, il  parait en effet difficile d’accéder à l’ultime couche de stockage de données de ces systèmes. De même, si toutes les couches de stockage sont opérantes mais qu’un utilisateur commet une erreur, ou si la redondance du système (comme la technologie snapshot) n’est pas correctement configurée et qu’une panne survient, il peut être nécessaire de contacter la division Ontrack Data Recovery de Kroll Ontrack pour restaurer les fichiers critiques.

Beaucoup des restaurations de systèmes NetApp accomplies par les ingénieurs d’Ontrack Data Recovery durant ces dix dernières années se rapportent à des pannes de périphériques de stockage individuels (un ou deux disques durs défectueux hors de la couche RAID, annulant la redondance prévue à l’origine). Les experts de la restauration parviennent, dans les salles blanches d’Ontrack Data Recovery, à dépanner un bon nombre des disques durs et à en extraire les données. Celles-ci sont alors sauvegardées sur des disques similaires à ceux des équipements NetApp, qui sont ensuite réintégrés dans le système. Les données récupérées permettent de restaurer les autres couches de stockage et préservent au mieux l’intégrité des fichiers.
L’ alternative unique consiste à mettre à niveau le microcode du disque dur, de façon à restaurer les données fondamentales et réactiver le périphérique de stockage. Toute l’unité fonctionne alors suffisamment longtemps pour permettre la copie des données cibles, avec cette fois encore un impact minime sur l’intégrité des fichiers.

Etude d’un cas de restauration de données après une panne

Face à la crise économique mondiale de 2008 et 2009, de nombreuses entreprises ont décidé de réduire le nombre de leurs techniciens informatiques. Le risque d’erreur humaine a alors augmenté, tout  comme la probabilité du nombre d’accidents possibles. L’équipe informatique d’une de ces entreprises s’est retrouvée à devoir gérer d’abondantes sauvegardes instantanées en un temps très limité. Le volume des données actives et des données sauvegardées a  abouti par un débordement de la  capacité de stockage de l’Appliance. Sans aucune solution et pour préserver la disponibilité du système, les techniciens ont décidé de supprimer les données de snapshot. C’est alors qu’un sinistre a frappé le système de stockage.

Un fichier doit pouvoir être restauré tout au long de son cycle de vie. D’après le schéma ci-dessous, l’entreprise n’a pas eu d’autres options que d’appeler un technicien expert en restauration de données. La perte de données est apparemment intervenue sur la couche supérieure, celle du système de fichiers.


Les ingénieurs d’Ontrack Data Recovery ont alors dû développer des solutions pour restaurer les métadonnées du système de fichiers. Ils ont fait en sorte que les données cibles soient à nouveau abordables. Ils ont dû pour cela examiner de près les méthodes d’allocation du système de fichiers.

Désormais, cette innovation peut  s’appliquer à tous les systèmes de fichiers de NetApp où les snapshots WAFL ont été supprimés du pool de stockage ou dont des volumes entiers ont été anéantis. Des techniques de restauration spécifiques permettent  de surcroit  de contrôler le système de fichiers et de le remettre en état au besoin. Ceci est d’autant plus utile et efficace pour évaluer la réussite de la restauration et l’ampleur de l’éventuelle corruption de données.

Ces techniques et cette capacité d’innovation distinguent Kroll Ontrack de la concurrence. L’expertise exercée dans les domaines du stockage électronique et magnétique, de la restauration de disques RAID, est mise à votre service dans les meilleurs délais. Les compétences et l’expérience de son équipe d’ingénieurs, permettent de tout mettre en œuvre pour la récupération de données dans les meilleures conditions envisageables.