Accueil > Big Data, IA > Hadoop Hortonworks pour Architectes et Administrateurs
Formation #BSI29

Formation Hadoop Hortonworks pour Architectes et Administrateurs

Durée : 4 jours

Code : BSI29


Prochaines dates programmées :

Du 23 au 26 Avril 2024

Du 04 au 07 Juin 2024

Du 27 au 30 Août 2024

Du 22 au 25 Oct. 2024

Du 10 au 13 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Elaborer une architecture Hadoop
  • Comprendre le fonctionnement de HDFS et YARN/MapReduce
  • Exploiter et gérer un cluster Hadoop
  • Être en mesure de configurer Hadoop et ses outils
  • Configurer et administrer un cluster Hortonworks
  • Gérer la maintenance des noeuds dans un cluster
Programme
1/ Introduction
  • Présentation générale d’Hadoop
  • Exemples d’utilisation dans différents secteurs
  • Les possibilités d’implantation de l’infrastructure et les coûts associés
  • Les fonctionnalités du framework Hadoop
  • Les différentes versions
  • Les distributions et leurs caractéristiques (HortonWorks, Cloudera, MapR, EMR, Apache, ...)
  • Spécificités de chaque distribution
  • Architecture et principe de fonctionnement
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager
  • Rôle des différents composants
  • Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, HBase, ...
2/ Les outils Hadoop
  • Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
  • Gestion des données
  • Exemple de sqoop
  • Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ...
  • Outils complémentaires : Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
  • Outils de développement : Cascading, Scalding, Flink/Pachyderm
  • Outils d'analyse : RHadoop, Hama, Chukwa, kafka
3/ L'écosystème d'Hadoop
  • Le système de fichier HDFS
  • MapReduce et l’utilisation à travers Yarn
  • Zookeeper
  • HBase
  • Présentation de l’architecture globale
  • La définition du dimensionnement pour un cluster Hadoop
  • Les particularités de MapR
4/ Installation de Hadoop
  • Les différents modes d'installation : local, pseudo-distribué, distribué
  • Installation d’Hadoop / HDFS
  • Installation des principaux composants (Hive, Pig, HBase, Flume...)
  • Installation d’Hadoop et de quelques composants
5/ Configuration d’Hadoop
  • Fichiers de configuration :
  • core-site.xml, hdfs-site.xml
  • mapred-site.xml
  • yarn-site.xml
  • capacity-scheduler.xml
  • Création des users pour les daemons hdfs et Yarn, droits d'accès sur les exécutables et répertoires
  • Lancement des services
  • Démarrage des composants : hdfs, hadoop-daemon, Yarn-daemon, etc ..
6/ Cluster Hadoop
  • Gestion des noeuds du cluster Hadoop
  • TaskTracker, JobTracker pour MapReduce
  • Gestion des tâches via les schedulers
  • Administration des logs
  • Utiliser un manager
7/ Administration hadoop
  • Outils complémentaires à Yarn et hdfs : jConsole, jconsole yarn
  • Exemples sur le suivi de charges, l'analyse des journaux
  • Principe de gestion des noeuds, accès JMX
  • Administration HDFS :
  • Outils de stockage des fichiers, fsck, dfsadmin
  • Exemples simples de récupération de fichiers
  • Gestion centralisée de caches avec Cacheadmin
  • Déplacement d'un NameNode
  • Mise en mode maintenance
8/ Concepts d'architecture complexe
  • Architecture en rack : les avantages et fonctionnement et paramétrage du rack awareness
  • Scalabilité et performances : le Namenode Federation
  • High Availability des serveurs maitres
  • Utilisation des snapshots : sauvegarde et restauration
9/ Haute disponibilité
  • Mise en place de la haute disponibilité sur une distribution Ambari
10/ Sécurité
  • Mécanismes de sécurité et mise en oeuvre pratique :
  • Activer la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode
  • Sécuriser de Yarn avec la mise en oeuvre d'un proxy et d'un Linux Container Executor
11/ Exploitation
  • Installation d'une grappe Hadoop avec Ambari
  • Tableau de bord
  • Lancement des services
  • Principe de la supervision des éléments par le NodeManager
  • Monitoring graphique avec Ambari
  • Présentation de Ganglia et Kibana
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Administrateurs systèmes
  • Toutes personnes qui gèrent et maintiennent les clusters Apache Hadoop en production
Dates

Dates

  • Du 23 au 26 Avril 2024
  • Du 04 au 07 Juin 2024
  • Du 27 au 30 Août 2024
  • Du 22 au 25 Oct. 2024
  • Du 10 au 13 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.