HDFS
La version 2 de Hadoop supporte officiellement Windows Server et Windows Azure. La version 2 de Hadoop permet aussi : D’accéder à HDFS à partir d’un système de fichiers distribué NFS-v3, ce qui permet alors de considérer HDFS comme un disque partagé standard. De prendre des “clichés” (snapshots) de tout ou partie d’un cluster.
Apache Hadoop YARN (Yet Another Resource Negotiator) est une technologie de gestion de clusters. Elle rend l’environnement Hadoop mieux adapté aux applications opérationnelles qui ne peuvent pas attendre la fin des traitements par lots. La principale différence entre Hadoop version 1 et Hadoop version 2 est la séparation claire dans la version 2 entre la […]
Présentation de HDFS HDFS (Hadoop Distributed File System) est le composant de Hadoop en charge du stockage des données dans un cluster Hadoop HDFS reprend de nombreux concepts proposés par des systèmes de fichiers classiques comme ext2 pour Linux ou FAT pour Windows. Nous retrouvons donc la notion de blocs (la plus petite unité que […]
Pour bien comprendre le fonctionnement de Hadoop, nous vous invitons à lire ces deux cours introductifs sur “Big Data” et “Hadoop”: Introduction au Big Data Introduction à Hadoop L’écosystème Hadoop Hadoop est principalement constitué de deux composants : Le système de gestion de fichiers distribué, HDFS. Le framework MapReduce (version 1 de Hadoop)/YARN (version 2 […]
Les modes de fonctionnement de Hadoop sont en nombre de trois : le mode local (local mode) ; le mode pseudo-distribué (pseudo-distributed mode) ; le mode totalement distribué (fully-distributed mode). Le mode local En mode local, Hadoop fonctionne sur une seule station de travail et les 5 daemons de Hadoop (NameNode, SecondaryNameNode, DataNode, JobTracker et […]