Accueil > Big Data, IA > Apache Hadoop
Formation #BSI23

Formation Apache Hadoop

Durée : 4 jours

Code : BSI23


Prochaines dates programmées :

Du 30 Avril au 03 Mai 2024

Du 25 au 28 Juin 2024

Du 06 au 09 Août 2024

Du 15 au 18 Oct. 2024

Du 24 au 27 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Installer et configurer un cluster Hadoop
  • Développer des applications de manipulation de données en utilisant les différents composants de l’écosystème Hadoop
  • Utiliser Hdfs, MapReduce, Yarn, Hive, Sqoop, Hbase, Oozie
Programme
1/ Introduction
  • Définition du périmètre du Big Data
  • Les origines du Big Data
  • La donnée en tant que matière première
  • Le rôle du projet Hadoop
2/ Les composants Hadoop
  • Écosystème Hadoop
  • Fonctionnalités : stockage, outils d'extraction, de conversion, ETL, analyse, …
  • Exemples de cas d'utilisation sur des grands projets
  • Les principaux composants : HDFS pour le stockage et YARN pour les calculs
  • Architecture et principes de fonctionnement de MapReduce
  • HBase
3/ Principales distributions d’Hadoop
  • Hortonworks
  • MapR
  • Cloudera
4/ Mise en place d’une infrastructure Hadoop 5/ Organisation d’un cluster
  • Besoin matériel, réseau
  • Choisir le matériel adapté
6/ Installation Hadoop et configuration initiale
  • Type de déploiement
  • Installation d'Hadoop
  • Installation d'autres composants (Hive, Pig, HBase, Flume…)
7/ Configuration de l’environnement Hadoop
  • Étude des fichiers de configuration
  • modes de configurations : ligne de commandes, API Rest, serveur http intégré, APIS natives
  • Configuration des services: HDFS, YARN, Logs, etc.
  • Configuration des droits d’accès
8/ Gestion d'un cluster Hadoop
  • Gestion des nœuds du cluster Hadoop
  • Les TaskTracker, JobTracker pour MapReduce
  • Gestion des tâches via les schedulers
  • Gestion des logs
  • Utiliser un manager
9/ Manipulation de la base de données Hive
  • Création de bases de données, tables, vues
  • Requêtes grâce au HiveSQL
  • Manipulations de fonctions définies par l’utilisateur (UDF)
  • Gestion des droits utilisateurs
10/ Exploration de l’outil apache pig
  • Pattern et best practices MapReduce
  • Introduction à Pig
  • Caractéristiques du langage : latin
  • Installation / lancement
  • Ecriture d'un script Pig
  • Les fonctions de bases
  • Ajouts de fonctions personnalisées
  • Les UDF
  • Mise en oeuvre
11/ OOZIE
  • Comment planifier ses travaux
  • Utilisation de workflows, coordinateurs, bundles
12/ Optimiser l’exécution de vos travaux
  • Partitionner vos données à l’aide d’Hive
  • Archivez vos données
  • Gestion de la mémoire (JVM)
13/ Sécurité en environnement hadoop
  • Mécanisme de gestion de l'authentification
  • Configuration des ACL
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Développeurs
  • DSI
  • Utilisateurs
Dates

Dates

  • Du 30 Avril au 03 Mai 2024
  • Du 25 au 28 Juin 2024
  • Du 06 au 09 Août 2024
  • Du 15 au 18 Oct. 2024
  • Du 24 au 27 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.