Accueil > Big Data, IA > Développement de Scripts avec Pig
Formation #BSI30

Formation Développement de Scripts avec Pig

Durée : 3 jours

Code : BSI30


Prochaines dates programmées :

Du 26 au 28 Juin 2024

Du 07 au 09 Août 2024

Du 02 au 04 Oct. 2024

Du 18 au 20 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Avoir une vue d'ensemble de l'architecture de Apache Pig
  • Connaître les fonctionnalités générales et les capacités de Apache Pig
  • Développer des requêtes en latin, pour effectuer des transformations sur des données et des analyses de données
  • Charger et de manipuler des données de types et formats différents
  • Intégrer des données de différents formats
Programme
1/ Introduction
  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l'écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l'approche Hive ou Spark
2/ Exploration de l’outil Apache Pig
  • Pig : définition, caractéristiques et rayon d’action
  • Les cas d’utilisation de Pig
  • Rappels sur les commandes HDFS
  • Pré-requis techniques
  • Configuration de Pig
  • Exécuter les différents modes (interactif ou batch)
  • Principe de l'exécution de scripts Pig Latin avec Grunt
3/ Le langage Pig Latin
  • Présentation du Pig Latin : Utilisation, Fonctionnement
  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Chargement des données : PigStorage, Schémas, Commande DESCRIBE
  • Sauvegarde de données : DUMP, STORE
  • Ordres de base : LOAD, FOREACH, FILTER, STORE
  • Création d'un ETL de base
  • Contrôle d'exécution
4/ Transformation des données via des opérations de filtre avec Pig Latin
  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres
5/ Analyse de la donnée
  • Échantillonnages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes, ...
  • Traitements de chaînes de caractères et traitement de dates
6/ Intégration
  • Formats d'entrées/sorties
  • Interfaçage avro, json
  • Cargement de données depuis HDFS vers HBase
  • Analyse de données Pig/HBase et restitution Json
7/ Extensions du Pig Latin
  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig
  • Utilisation de Pig Latin depuis des programmes Python
  • Exécution de programmes externes, streaming
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Chefs de projet
  • Data scientists
  • Développeurs souhaitant utiliser pig pour l'analyse de données
Dates

Dates

  • Du 26 au 28 Juin 2024
  • Du 07 au 09 Août 2024
  • Du 02 au 04 Oct. 2024
  • Du 18 au 20 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.