Mise en place de Spark avec Maven sur Eclipse et IntelliJ IDEA

Qu’est ce que Apache Spark?

Apache Spark est un framework open source de calcul distribué, initialement développé à Berkeley par AMPLab et maintenant un projet de la fondation Apache. Contrairement à Hadoop qui utilise le patron d’architecture MapReduce sur des disques, Spark travaille en mémoire vive ce qui est potentiellement cent fois plus rapide.

Spark nécessite :

  • un gestionnaire de cluster : Spark lui-même (native Spark cluster), Hadoop YARN ou encore Apache Mesos (en). Spark peut même fonctionner sur un seul serveur, notamment pour le développement.
  • un système de stockage distribué : Hadoop Distributed File System (HDFS), Informix, Cassandra, OpenStack Swift ou Amazon S3.

Qu’est ce que Maven?

Apache Maven est un outil pour la gestion et l’automatisation de production des projets logiciels Java en général et Java EE en particulier.

Pour installer Apache Maven :

Mise en place de Spark avec Maven sur Eclipse et IntelliJ IDEA

Instructions pour Eclipse :

Dans le menu “File” selectionnez “New”, puis “Other”:

nouveau-projet-java-maven-1

Développez le dossier “Maven” et choisissez “Maven Project”, puis cliquez sur “Next”:

nouveau-projet-java-maven-2

Cochez la case “Create a simple project” et cliquez sur “Next”:

nom-et-localisation-du-projet-maven

Enterez GroupId, ArtifactId, Verison, et Name, et cliquez sur “Finish”:

configuration-projet-mave

Ouvrez le pom.xml et cliquez sur l’onglet “pom.xml”. Ajoutez les dépendances de Spark :

Enregistrez le pom.xml

Finalement, copier/coller le code de la classe “HelloWorld”:

Vous avez mis correctement en place Apache Spark 😉

 

Laisser un commentaire