Formation #BSI21

Formation Spark Scala : traitement des données

Durée : 4 jours

Code : BSI21

Prochaines dates programmées :

Du 11 au 14 Juin 2024

Du 27 au 30 Août 2024

Du 08 au 11 Oct. 2024

Du 17 au 20 Déc. 2024

Objectifs

Développer des applications avec Apache Spark en utilisant Scala comme language de programmation

Découvrir MLLib pour du machine learning sur Spark

Optimiser une application Spark

Programme

1/ Introduction au Big Data

Introduction au Big Data

Les challenges du Big Data

Batch vs le temps réel dans le Big Data Analytics

Vue d'ensemble de l'écosystème

Les options de l'analyse en temps réel

Les solutions Spark apportées au Big Data

2/ Introduction à Spark

Introduction au Big Data

Historique du Framework

Streaming Data - Spark

In-memory Data - Spark

Présentation de Spark

Origine du projet

Principes de base du fonctionnement de Spark

Environnement et outils de Spark

Comparaison avec l'environnement Apache Hadoop

Les différents modules de Spark

Langages supportés

Ecosystème Spark

Les modes de Spark

Installation de Spark

Vue d'ensemble de Spark en cluster

Spark Standalone cluster

Spark Web UI

3/ Introduction à Scala pour apache Spark

Présentation de Scala

Pourquoi Scala avec Spark ?

Scala dans les autres framework

Introduction à Scala REPL

Les opérations basiques sur Scala

Les types de variables dans Scala

Les structures de contrôles dans Scala (boucles, fonctions, procédures)

Les collections dans Scala (Array, ArrayBuffer, Map, Tuples, Lists...)

4/ Les opérations communes sur Spark

Utilisation de Spark Shell

Création d'un contexte Spark

Chargement d'un fichier en Shell

Réalisation d'opérations basiques sur un fichier avec Spark Shell

Présentation de l'environnement de développement SBT

Créer un projet Spark avec SBT

Exécuter un projet Spark avec SBT

Le mode local

Le mode Spark

Le caching sur Spark

Persistance distribuée

5/ Introduction aux RDD et dataframe

Transformations dans le RDD

Actions dans le RDD

Chargement de données dans RDD

Enregistrement des données à travers RDD

Paire clé-valeur "RDD MapReduce" et les paires "RDD Operations"

Intégration HDFS avec Spark et Hadoop

Intégration YARN avec Spark et Hadoop

Gestion des fichiers de séquences et les partitionner

6/ Apache spark Mllib

Architecture de Spark Streaming

Premier programme avec Spark Streaming

Les transformations dans Spark Streaming

La "fault tolerance" dans Spark Streaming

Checkpointing

Niveaux de parallélismes

Machine Learning avec Spark

Types de données

Algorithmes et statistiques

Classification et régression

Clustering

Filtrage collaboratif

7/ Manipuler des graphes avec GraphX

Analyse de l'architecture de Hive et Spark SQL

SQLContext dans Spark SQL

Travailler avec les DataFrames

Implémentation d'un exemple pour Spark SQL

Intégration de Hive et Spark SQL

Support pour JSON et les formats des "Parquet File"

Implémentation de la Data Visualization avec Spark

Chargement de données

Les requêtes Hive à travers Spark

Les techniques de tests dans Scala

Les astuces d'amélioration de performance dans Spark

Les variables partagées

Diffusion des variables

Partage de variables

Accumulateurs

8/ Optimisation de Spark

Gestion des variables partagées

Données broadcastées

Accumulateurs

Méthodes et outils d’optimisation des performances

Approche Pédagogique

Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique

Cas pratiques

Remise d’outils

Echanges d’expériences

Public cible

Statisticiens

Consultants Big Data

Data analysts

Data scientists

Dates

Du 11 au 14 Juin 2024
Du 27 au 30 Août 2024
Du 08 au 11 Oct. 2024
Du 17 au 20 Déc. 2024

Accueil Achats Anglais Professionnel Assistanat Assurance Audit Interne Banque Carrière Professionnelle Centre d'Appels Commercial - Vente Communication Comptabilité - Fiscalité Contrôle de Gestion Développement Durable Développement Personnel Direction d'entreprise Droit des affaires et social Efficacité professionnelle Finance et Trésorerie Formation International - Export Logistique - Supply Chain Management Management des risques Marketing Paie/Gestion admin. du personnel Projet Qualité/Sécurité/Env. Relation client Ressources humaines Secteur public Webmarketing Agilité Bases de données Big Data Cloud computing CRM Gestion de projets et méthodes IBM Applications IBM Systèmes Informatique décisionnelle Ingénierie logicielle Java, JEE, C, C++ Linux, Unix, Mac Management des SI Management ITIL Messagerie et communication Microsoft .NET Microsoft Applications Microsoft Système Mobilité Réseaux et Cisco Réseaux et Voix sur IP SAP Sécurité, Sauvegarde et Supervision Serveurs applicatifs Virtualisation et stockage Web - Digital Air - Gaz - Vapeur Analyse Industrielle Automatismes et Robotique Chimie Electricité & Electrotechnique Energie Industrielle Froid & Climatisation Hydraulique Informatique Industrielle Instrumentation & Régulation Maintenance Mécanique Médical / Santé / Pharmacie Méthodes Métrologie & Mesure Pneumatique Pompes & Vannes Production Risques & Sécurité Soudage Usinage & Matériaux Variation de vitesse