Accueil > Big Data, IA > Hadoop : installation et administration
Formation #BSI26

Formation Hadoop : installation et administration

Durée : 5 jours

Code : BSI26


Prochaines dates programmées :

Du 10 au 14 Juin 2024

Du 26 au 30 Août 2024

Du 14 au 18 Oct. 2024

Du 16 au 20 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Appréhender les concepts et les enjeux liés à Hadoop
  • Comprendre le fonctionnement de la plateforme et de ses composants
  • Savoir installer Hadoop
  • Etre capable d'administrer un cluster
  • Optimiser la disponibilité et le débit des données
Programme
1/ Vue d'ensemble d’apache Hadoop
  • Big Data et Hadoop
  • Architecture et principe de fonctionnement Hadoop
  • Principales Distributions d’Hadoop : Apache, Cloudera, Hortonworks, EMR, MapR, DSE
  • Spécificités de chaque distribution
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager
  • Rôle des différents composants Hadoop
  • Avantages/inconvénients de la plateforme
  • Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, HBase, ...
  • Exemples d’utilisations d’Hadoop
2/ Les outils Hadoop
  • Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
  • Vue d'ensemble
  • Gestion des données
  • Exemple de sqoop
  • Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ...
3/ Préparations et configuration du cluster Hadoop
  • Architecture de Hadoop Distributed File System (HDFS)
  • Architecture de MapReduce
  • Conception du cluster
  • Considération sur le Hardware
4/ Installation de Hadoop
  • Les différents type de déploiement de Hadoop
  • Installation d’Hadoop / HDFS
  • Installation des principaux composants (Hive, Pig, HBase, Flume...)
  • Mise en œuvre : installation d’Hadoop et de quelques composants
5/ Configuration de l’environnement Hadoop
  • Étude des fichiers de configuration
  • Modes de configurations : ligne de commandes, API Rest, serveur http intégré, APIS natives
  • Configuration des services: HDFS, YARN, Logs, etc.
6/ Cluster Hadoop
  • Gestion des noeuds du cluster Hadoop
  • TaskTracker, JobTracker pour MapReduce
  • Gestion des tâches via les schedulers
  • Administration des logs
  • Utiliser un manager
7/ Administration de HDFS
  • Gestion des démons Hadoop
  • Ajout/Suppression des nœuds
  • Gestion des données dans HDFS :
  • Import de données externes
  • Utilisation des fichiers HDFS
8/ Administration de MapReduce
  • Gestion des taches MapReduce
  • Gestion des nœuds de calcul
9/ Configuration avancée
  • Configuration de la sécurité
  • Reprise sur échec
  • NameNode high availability (MRV2/YARN)
10/ Monitoring et optimisation tuning
  • Monitoring (Ambari, Ganglia...)
  • Benchmarking/profiling d'un cluster
  • Les outils Apache GridMix, Vaaidya
  • Choisir la taille des blocs
  • Autres options de tuning
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Administrateurs de cluster Hadoop
  • Développeurs
Dates

Dates

  • Du 10 au 14 Juin 2024
  • Du 26 au 30 Août 2024
  • Du 14 au 18 Oct. 2024
  • Du 16 au 20 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.