Les principaux apports de la version 2 d’Hadoop – Partie 1

L’objectif de ce article est de présenter les principaux apports de la version 2 de Hadoop. Ils sont au nombre de quatre :

  • High Availability (HA) ou haute disponibilité en français , un nouveau dispositif de HDFS qui permet de faire en sorte que le NameNode (NN) ne soit plus un Single Point Of Failure (SPOF).
  • Federation, un nouveau dispositif de HDFS qui permet de gérer de manière plus efficace les clusters de grande taille.
  • YARN, un gestionnaire de ressources générique de seconde génération sur lequel s’appuie MapReduce, et qui peut être aussi mis en œuvre par d’autres modèles de traitement de données.
  • La possibilité d’installer Hadoop directement sous Microsoft Windows.

Pour une liste à jour des dernières versions de Hadoop et de leurs fonctionnalités, se reporter l’adresses suivante : http://hadoop.apache.org/releases.html#News.

High Availability

Dans la version 1 de Hadoop, les clusters Hadoop disposaient d’un NN unique qui gérait l’arborescence des fichiers HDFS et suivait le stockage des  données dans un cluster.

Jusqu’à Hadoop 2.0.0, la seule façon de parer à une défaillance du NN était :

  • De lui affecter une machine à haute tolérance aux pannes.
  • D’avoir une machine « miroir », prête à démarrer en cas de défaillance du NN.

Depuis Hadoop 2.0.0, cette notion de machine « miroir » a été institutionnalisée par le biais du mode HA (High Availability = haute disponibilité). Dans ce mode, il existe deux NN, l’un actif (Active NN), l’autre en veille (Standby NN). Le Standby NN est prêt à remplacer automatiquement l’Active NN en cas de défaillance de ce dernier, en quelques secondes en mode automatique.

Les informations sur la cartographie des données du cluster sont disponibles à la fois au niveau de l’Active NN et au niveau du Standby NN.

Le Standby NN assume en outre la fonction du SNN, qui n’existe donc plus tant qu’il est en veille.

L’opération consistant à basculer de l’Active NN vers le Standby NN peut se faire de manière automatique (Automatic Failover) ou manuelle (Manual Failover).

Les daemons de HDFS en mode "High Availability (HA)"

Les daemons de HDFS en mode « High Availability (HA) »

Laisser un commentaire