Ontrack Data Recovery®

Article technique NetApp

 

Les fabricants de systèmes de stockage redoutent énormément la perte de données électroniques ou l’inaptitude à fournir la bande passante nécessaire au transfert des données des utilisateurs / applications. Lorsque la technologie évolue, le retour sur les investissements dans des équipements de stockage est  alors plus favorable.

Malgré la multitude de méthodes  toujours plus performante pour stocker des fichiers de données, les pannes entraînant  la perte de données restent fréquentes.  Elles peuvent affecter, dans une portée limitée, un faible nombre d’utilisateurs (un seul dans le meilleur des cas). Mais d’autres peuvent affecter des divisions entières comme toute une entreprise. Les techniciens informatiques se demandent : « pourquoi cette panne ? Nous pensions pourtant avoir protégé ce système » lorsqu’ils essayent de résoudre le problème.

Présentation d’une architecture de stockage alternative

Comme bon nombre d’entreprises, NetApp  suggère un choix unique à l’architecture DAS (Direct Attached Storage) : un serveur aux fonctionnalités de stockage en local, les données étant accessibles au travers de protocoles réseau. En 1994, NetApp (Network Appliance) avec son système d’exploitation et ses connexions réseau et mécanismes de stockage intégrés  présente pour la première fois à la société USENIX son système de stockage informatique consolidé. Sur le marché informatique, l’Appliance réseau est l’unique concept à réunir système d’exploitation, équipement matériel et système de fichiers dans un même boîtier, diminuant par conséquent les efforts de gestion. Fiable et aussi facile à utiliser qu’une cuisinière ou un réfrigérateur, il suffit de brancher cette Appliance. La simplicité à la gérer permet de mieux contrôler  les coûts d’exploitation, ce qui a rapidement charmé les techniciens informatiques jusqu’aux dirigeants.
Ce système reposait sur les concepts de stockage de données suivants :

  • Les protocoles NFS, développés par Sun Microsystems, Inc.
  • La technologie de stockage RAID, développée par D .Patterson, G. Gibson et R. Kats, de L’université Berkeley de Californie.
  • Le système d’exploitation UNIX, développé par le département de génie électrique et informatique de Berkeley.
  • Le système de fichiers Episode, développé par TransArc Corporation.

L’Appliance de Netapp est perfectionnée par un système d’exploitation du matériel propriétaire, Data ONTAP, et un nouveau système de fichiers, WAFL ( Write Anywhere File Layout), qui lui donne performances et fiabilité.  Le système de fichiers WAFL stocke les métadonnées (données clés du système de fichiers qui décrivent les fichiers et la localisation logique du flux de données) dans le flux de données des fichiers. Il utilise un inode (nœud d’index) UNIX en guise de descripteur des métadonnées. Cependant,   à la place que des systèmes de fichiers basés sur UNIX conservent habituellement l’inode en un lieu précis, le système de fichier WAFL  considère l’inode et le flux de données comme un objet du volume. Cela lui permet d’ « écrire n’importe où » (Write Anywhere).  Ce système fragmente les  fichiers pour donner de meilleurs niveaux de performance. Les opérations d écriture sont programmées par le système d’exploitation en conformité avec la configuration RAID du pool de stockage. La lecture et l’écriture sont ainsi optimisées et les temps d’exécution réduits.

Le système de fichiers de NetApp accepte également la technique COW (Copy-on-Write), qui réplique les données selon un programme spécifique, créant ainsi des « snapshots » (instantanés) comme les nomme NetApp. Ces snapshots sont établis sous le système Data ONTAP afin que  seuls les blocs modifiés du flux de données  d’un fichier soient sauvegardés.  Par exemple,  un fichier constitué de 1000 blocs, chacun pouvant stocker 4000 octets de données, soit un fichier de 4 Mo.  Ce fichier est ouvert et actualisé à plusieurs reprises au cours d’une journée de travail. Grâce à la technologie snapshot, seules les parties modifiées de ce fichier sont dupliquées à l’heure préprogrammée. De cette manière, si le fichier est rectifié ou supprimé accidentellement, l’administrateur système peut toujours se référer au dernier instantané effectué avant la perte de données et restaurer le fichier. Les snapshots faisant partie intégrante du système de fichiers WAFL, le processus de stockage s’en trouve optimisé, tout comme la gestion des données.

De surcroît, les derniers systèmes développés par NetApp consignent les modifications du système de fichiers dans des journaux extrêmement détaillés et un système transactionnel assure la cohérence de l’ensemble. Ces transactions sont gardées dans une mémoire non-volatile ou flash. En cas de panne inattendue du système, le système de fichiers identifie précisément les opérations interrompues et actualise en conséquence les métadonnées WAFL. Comme Ces opérations ont lieu dans un espace de stockage isolé, la fiabilité du système de fichiers s’en trouve accrue : le nombre de vérifications requises est limité et l’accessibilité du système est accélérée.

Pannes et pertes de données impromptues

Les sinistres entraînant la perte de données sont généralement le fruit d’événements imprévus. Des évènements programmés ont parfois des conséquences impromptues du fait de risques ignorés, d’erreurs humaines ou d’équipements défectueux. Et de tels accidents sont d’autant plus désastreux quand ils déclenchent des pannes ou répercussions en chaine.  Pour synthétiser,  ils interviennent toujours au  moment le plus défavorable et les conséquences peuvent  être dévastatrices s’ils ne sont pas contrôlés rapidement.

Même les meilleures technologies matérielles et logicielles ne peuvent éviter les erreurs mêmes minimes, au niveau des couches d’abstraction de données des processus de stockage physiques et logiciels. Il suffit que ces erreurs se multiplient en cascade pour qu’elles anéantissent l’ensemble des données.  Les pertes de données peuvent intervenir sur une ou plusieurs des couches suivantes :


  • La couche de stockage physique, disques durs compris, la panne pouvant toucher les supports électroniques et magnétiques.
  • La couche LUN (Logical Unit Number) où les périphériques physiques sont réunis  au sein d’unités de stockage, comme dans les cas des systèmes RAID : la panne peut se justifier  par la perte de configuration du système de stockage ou par le dysfonctionnement du matériel contrôlant cette configuration.
  • La couche LVM ( Logical Volume Management), où de nombreuses LUN sont configurées au sein de « pools de stockage » ou des parties de LUN sont regroupées en volumes présentés au système d’exploitation en tant que capacité de stockage utilisable : la panne peut provenir de la configuration ou de l’indisponibilité de deux couches successives essentielles au bon fonctionnement de la LVM.
  • La couche du système de fichiers, où s’opère  le lien entre les métadonnées et les flux de données des fichiers. Il s’agit de la représentation hiérarchique de l’organisation des fichiers dont les utilisateurs et les applications se servent pour lire ou écrire sur les sytème de stockage. La panne peut résulter de la corruption des métadonnées ou de l’inaccessibilité des flux de données.

Les systèmes de stockage modernes comportent toutes ces couches. Et les solutions de NetApp, du fait de leur conception intégrée, s’avèrent particulièrement complexes. En effet, en cas de panne d’une ou de plusieurs des couches qui précèdent, il  parait difficile d’accéder à l’ultime couche de stockage de données de ces systèmes. De même, si toutes les couches de stockage sont opérantes mais qu’un utilisateur commet une erreur, ou si la redondance du système (comme la technologie snapshot) n’est pas correctement configurée et qu’une panne survient, il peut être nécessaire de contacter la division Ontrack Data Recovery de Kroll Ontrack pour restaurer les fichiers critiques.

Durant ces dix dernières années,  beaucoup des restaurations de systèmes NetApp accomplies par les ingénieurs d’Ontrack Data Recovery se rapportaient à des pannes de périphériques de stockage individuels (un ou deux disques durs défectueux hors de la couche RAID, annulant la redondance prévue à l’origine). Les experts de la restauration travaillant dans les salles blanches d’Ontrack Data Recovery parviennent à dépanner un bon nombre des disques durs et à en extraire les données. Celles-ci sont alors sauvegardées sur des disques similaires à ceux des équipements NetApp, qui sont ensuite réintégrés dans le système. Les données récupérées suffisent généralement pour restaurer les autres couches de stockage et préserver au mieux l’intégrité des fichiers.

La seule alternative consiste à mettre à niveau le microcode du disque dur, de façon à restaurer les données fondamentales et réactiver le périphérique de stockage. Toute l’unité fonctionne alors suffisamment longtemps pour permettre la copie des données cibles, avec cette fois encore un impact minime sur l’intégrité des fichiers.

Etude d’un cas de restauration après une panne

Face à la crise économique mondiale de 2008/2009, de nombreuses entreprises ont décidé de confier leur gestion informatique un nombre réduit de technicien.  Le risque d’erreur humaine a alors augmenté, tout  comme le nombre d’accidents probables. L’équipe informatique d’une de ces entreprises s’est retrouvée à devoir gérer d’abondantes sauvegardes instantanées en un temps très limités. Le volume des données actives et des données sauvegardées a  abouti par un débordement de la  capacité de stockage de l’Appliance. Sans aucune solution, les techniciens ont décidé de supprimer les données de snapshot afin de préserver la disponibilité du système. C’est alors qu’un sinistre a frappé le système de stockage.

Mais, un fichier doit pouvoir être restauré tout au long de son cycle de vie ( cf ch1). D’après le schéma ci-dessous, l’entreprise n’a pas d’autres options que d’appeler un technicien expert en restauration de données. La perte de données est apparemment intervenue sur la couche supérieure, celle du système de fichiers.

Les ingénieurs d’Ontrack Data Recovery ont dû développer des solutions pour restaurer les métadonnées du système de fichiers. Ils font en sorte que les données cibles soient à nouveau abordables. Pour se faire, ils ont dû examiner de près les méthodes d’allocation du système de fichiers.

Cette même innovation peut dorénavant s’appliquer à tous les systèmes de fichiers de NetApp dont les snapshots WAFL ont été supprimés du pool de stockage ou dont des volumes entiers ont été anéantis. Des techniques de restauration spécifiques permettent en outre de contrôler le système de fichiers et de le remettre en état au besoin. Ceci est d’autant plus utile et efficace pour évaluer la réussite de la restauration et l’ampleur de l’éventuelle corruption de données.

Ces techniques distinguent Kroll Ontrack de la concurrence, ainsi que son expertise du stockage électronique et magnétique et de la restauration de disques RAID, sans omettre les compétences et l’expérience de son équipe d’ingénieurs, qui mettent tout en œuvre pour restaurer les données dans les meilleures conditions envisageable.