Accueil > Big Data, IA > Traitement de données Big Data en temps réel avec Spark et Storm
Formation #BSI22

Formation Traitement de données Big Data en temps réel avec Spark et Storm

Durée : 4 jours

Code : BSI22


Prochaines dates programmées :

Du 21 au 24 Mai 2024

Du 23 au 26 Juil. 2024

Du 24 au 27 Sept. 2024

Du 19 au 22 Nov. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Comprendre les fondamentaux du développement d'applications Big Data en temps réel
  • Evaluer les outils Spark et Storm
  • Utiliser le système distribué de calcul en temps réel Storm et Spark
Programme
1/ L'architecture temps réel
  • Traitements temps réel
  • Les architectures LAMDA
  • Les architectures KAPPA
  • Les architectures SMACK
2/ Introduction à apache Kafka
  • L’historique du projet Kafka
  • L’intérêt de Kafka dans le Big Data
  • Fonctionnalités, principe de fonctionnement de Kafka
  • Les composants du système : brokers, topics, consumers, producers…
  • Les fichiers journaux de Kafka
  • Les schémas Avro
  • Liaison avec Zookeeper
  • Les différentes APIs
3/ L’architecture de Storm
  • Définition de l'environnement de développement
  • Création de projets basés sur Storm
  • Les composants primitifs : Spouts et Bolts
  • Différents types de flux
  • Le modèle de données (clé, valeur)
  • Etude des composants d'un cluster Storm : Master node "Nimbus", Worker node, Zookeepers
  • Comprendre le cycle de vie du déploiement d’une topologie
  • Positionnement par rapport à un cluster Hadoop
4/ Fiabilité de traitement des messages Storm
  • Le mécanisme de suivi des messages
  • Cycle de vie d'un message
  • Utiliser différents langages pour le développement de services (Java, Python, Clojure…)
  • Définir la fiabilité avec l’API Storm
  • Assurer la fiabilité d’une application : méthodes et stratégies
5/ L'architecture d'apache Spark
  • Présentation Spark, origine du projet
  • Les solutions Spark apportées au Big Data
  • Environnement et outils de Spark
  • Langages supportés
  • Comparaison avec l'environnement Storm
  • Les différents modules de Spark
  • Différents types d'architecture (Standalone, Apache Mesos ou Hadoop YARN)
6/ Traiter les données en temps réel avec spark streaming
  • Fonctionnement et concepts de base
  • La notion de "DStream"
  • Apports, principe de fonctionnement (RDD, DataFrames, Data Sets)
  • Travailler avec les RDD : Créer des RDD, Opérations principales avec les RDD
  • Accumulateurs et variables broadcastées
  • Principe de fonctionnement
  • Principales sources de données
  • Comparaison avec Apache Storm
7/ Optimisation de spark
  • Gestion des variables partagées
  • Données broadcastées
  • Accumulateurs
  • Méthodes et outils d’optimisation des performances
8/ Les autres acteurs du marché
  • L'architecture d'Apache Apex
  • Comparaison entre Samza et Storm
  • Comparaison entre Apex et Flink
  • L'intégration Spark Streaming à l'aide de Talend
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Concepteurs
  • Développeurs
  • Architectes
Dates

Dates

  • Du 21 au 24 Mai 2024
  • Du 23 au 26 Juil. 2024
  • Du 24 au 27 Sept. 2024
  • Du 19 au 22 Nov. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.