Accueil > Business Intelligence et SAP > Pentaho Data Integration
Formation #BSI369

Formation Pentaho Data Integration

Durée : 4 jours

Code : BSI369

Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Comprendre l’environnement Pentaho et son fonctionnement
  • Maîtriser l'utilisation d'un ETL (Extract Transform Load)
Programme
1/ Introduction à l’outil Pentaho Data Integration
  • Pourquoi Pentaho Data Integration (PDI) ?
  • Historique et présentation PDI
  • Installation et configuration de l'outil
2/ Génération d’une première extraction de données
  • Les transformations et tâches (ordonnancement des transformations)
  • De l'extraction à l'alimentation de données
  • Appréhender et gérer les flux de data
  • Exécution d'une transformation d'une tâche
3/ Le référentiel
  • Créer un référentiel
  • Alimenter un référentiel
4/ Lecture et écriture de fichier
  • Données d’entrée et de sortie
  • Nettoyage de données
  • Paramétrer le chemin d’accès au fichier dans les propriétés de Kettle
  • Générer des données de sortie multiples grâce aux paramètres
  • Créer un fichier sérialisable à partir de plusieurs fichiers
  • Désérialiser un fichier
5/ Interaction avec les bases de données
  • Bases de données supportées
  • Se connecter et explorer une base de données source
  • La notion de métadonnées
  • Récupération d'une table d'une métadonnée
  • Epuration de données
  • Alimentation en Insert / Update
  • Tables input et paramètres timestamp
  • L’assistant copie de table (Copy Table Wizard)
6/ Manipuler les données
  • Trier son flux en ascendant ou descendant
  • Dédoubler son flux
  • Filtrer ses données selon plusieurs critères (alléger le flux de données)
  • Extraction d'informations à partir d'un champ (chaîne de caractères)
  • Remplacer une donnée par une autre
  • Gestion des opérateurs / opérations de calculs sur le flux
  • Bien utiliser le produit cartésien
  • Joindre les informations issues de données hétérogènes
  • Comparer des flux de données
  • Utiliser les agrégations de valeurs (sommes, moyennes, maximum, etc.)
7/ Enrichir son flux de données
  • Génération de logs
  • Création / Récupération des variables (dates, numériques, alphanumériques)
  • Utilisation du résultat d'un flux
  • Les propriétés d’un flux et de son ordonnanceur
8/ Les boucles
  • Les problématiques
  • Les boucles avec paramètres et le composant « Copie lignes vers résultat »
  • Les boucles avec les composants
9/ Gestion des logs et des erreurs
  • Les types d'erreurs
  • Gérer les erreurs (dans un job, une transformation)
  • Paramètres de gestion d'erreurs
  • Le composant "Data Validation"
  • Les niveaux de logs (via la console, sauvegardés en BDD...)
10/ Exploitation
  • Comprendre les erreurs et lancer des alertes (Débogage)
  • La parallélisation (exécution simultanée de plusieurs flux de données)
  • Export des travaux
  • Utiliser le kitchen pour exécuter des jobs via la ligne de commande
  • Documenter ses jobs
11/ Planification
  • Paramétrer le planificateur
  • Planifier un job
  • Pilotage des jobs planifiés
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Utilisateurs