Accueil > Big Data, IA > Spark Scala : traitement des données
Formation #BSI21

Formation Spark Scala : traitement des données

Durée : 4 jours

Code : BSI21


Prochaines dates programmées :

Du 11 au 14 Juin 2024

Du 27 au 30 Août 2024

Du 08 au 11 Oct. 2024

Du 17 au 20 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Développer des applications avec Apache Spark en utilisant Scala comme language de programmation
  • Découvrir MLLib pour du machine learning sur Spark
  • Optimiser une application Spark
Programme
1/ Introduction au Big Data
  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Vue d'ensemble de l'écosystème
  • Les options de l'analyse en temps réel
  • Les solutions Spark apportées au Big Data
2/ Introduction à Spark
  • Introduction au Big Data
  • Historique du Framework
  • Streaming Data - Spark
  • In-memory Data - Spark
  • Présentation de Spark
  • Origine du projet
  • Principes de base du fonctionnement de Spark
  • Environnement et outils de Spark
  • Comparaison avec l'environnement Apache Hadoop
  • Les différents modules de Spark
  • Langages supportés
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI
3/ Introduction à Scala pour apache Spark
  • Présentation de Scala
  • Pourquoi Scala avec Spark ?
  • Scala dans les autres framework
  • Introduction à Scala REPL
  • Les opérations basiques sur Scala
  • Les types de variables dans Scala
  • Les structures de contrôles dans Scala (boucles, fonctions, procédures)
  • Les collections dans Scala (Array, ArrayBuffer, Map, Tuples, Lists...)
4/ Les opérations communes sur Spark
  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation de l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le mode local
  • Le mode Spark
  • Le caching sur Spark
  • Persistance distribuée
5/ Introduction aux RDD et dataframe
  • Transformations dans le RDD
  • Actions dans le RDD
  • Chargement de données dans RDD
  • Enregistrement des données à travers RDD
  • Paire clé-valeur "RDD MapReduce" et les paires "RDD Operations"
  • Intégration HDFS avec Spark et Hadoop
  • Intégration YARN avec Spark et Hadoop
  • Gestion des fichiers de séquences et les partitionner
6/ Apache spark Mllib
  • Architecture de Spark Streaming
  • Premier programme avec Spark Streaming
  • Les transformations dans Spark Streaming
  • La "fault tolerance" dans Spark Streaming
  • Checkpointing
  • Niveaux de parallélismes
  • Machine Learning avec Spark
  • Types de données
  • Algorithmes et statistiques
  • Classification et régression
  • Clustering
  • Filtrage collaboratif
7/ Manipuler des graphes avec GraphX
  • Analyse de l'architecture de Hive et Spark SQL
  • SQLContext dans Spark SQL
  • Travailler avec les DataFrames
  • Implémentation d'un exemple pour Spark SQL
  • Intégration de Hive et Spark SQL
  • Support pour JSON et les formats des "Parquet File"
  • Implémentation de la Data Visualization avec Spark
  • Chargement de données
  • Les requêtes Hive à travers Spark
  • Les techniques de tests dans Scala
  • Les astuces d'amélioration de performance dans Spark
  • Les variables partagées
  • Diffusion des variables
  • Partage de variables
  • Accumulateurs
8/ Optimisation de Spark
  • Gestion des variables partagées
  • Données broadcastées
  • Accumulateurs
  • Méthodes et outils d’optimisation des performances
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Statisticiens
  • Consultants Big Data
  • Data analysts
  • Data scientists
Dates

Dates

  • Du 11 au 14 Juin 2024
  • Du 27 au 30 Août 2024
  • Du 08 au 11 Oct. 2024
  • Du 17 au 20 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.