Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Les structures de contrôles dans Scala (boucles, fonctions, procédures)
Les collections dans Scala (Array, ArrayBuffer, Map, Tuples, Lists...)
4/ Les opérations communes sur Spark
Utilisation de Spark Shell
Création d'un contexte Spark
Chargement d'un fichier en Shell
Réalisation d'opérations basiques sur un fichier avec Spark Shell
Présentation de l'environnement de développement SBT
Créer un projet Spark avec SBT
Exécuter un projet Spark avec SBT
Le mode local
Le mode Spark
Le caching sur Spark
Persistance distribuée
5/ Introduction aux RDD et dataframe
Transformations dans le RDD
Actions dans le RDD
Chargement de données dans RDD
Enregistrement des données à travers RDD
Paire clé-valeur "RDD MapReduce" et les paires "RDD Operations"
Intégration HDFS avec Spark et Hadoop
Intégration YARN avec Spark et Hadoop
Gestion des fichiers de séquences et les partitionner
6/ Apache spark Mllib
Architecture de Spark Streaming
Premier programme avec Spark Streaming
Les transformations dans Spark Streaming
La "fault tolerance" dans Spark Streaming
Checkpointing
Niveaux de parallélismes
Machine Learning avec Spark
Types de données
Algorithmes et statistiques
Classification et régression
Clustering
Filtrage collaboratif
7/ Manipuler des graphes avec GraphX
Analyse de l'architecture de Hive et Spark SQL
SQLContext dans Spark SQL
Travailler avec les DataFrames
Implémentation d'un exemple pour Spark SQL
Intégration de Hive et Spark SQL
Support pour JSON et les formats des "Parquet File"
Implémentation de la Data Visualization avec Spark
Chargement de données
Les requêtes Hive à travers Spark
Les techniques de tests dans Scala
Les astuces d'amélioration de performance dans Spark
Les variables partagées
Diffusion des variables
Partage de variables
Accumulateurs
8/ Optimisation de Spark
Gestion des variables partagées
Données broadcastées
Accumulateurs
Méthodes et outils d’optimisation des performances
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Statisticiens
Consultants Big Data
Data analysts
Data scientists
Dates
Dates
Du 11 au 14 Juin 2024
Du 27 au 30 Août 2024
Du 08 au 11 Oct. 2024
Du 17 au 20 Déc. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.