Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Les architectures Big Data orientées stockage, calcul, temps réel…
Le cadre juridique des données
Cycle de vie de la donnée
La qualité des données
Vue d’ensemble d’un processus de Data Science
3/ Projet Big Data : méthodologie et démarche de l’implémentation
Les besoins métiers et objectifs d’un projet
Spécificités d’un projet Big Data
Les bons outils
Poser les bonnes questions
Obtenir les données
Explorer et prétraiter les données
Analyser les données : planifier et construire un modèle viable
Communiquer les résultats
Transformer les résultats en décisions et en actions
4/ Technologies et outils associées au Big Data
Architecture et composants de la plateforme Hadoop 2
Les modes de stockage (NoSQL, HDFS)
Fonctionnement de MapReduce et Yarn…
Principales distributions Hadoop : Hortonworks, Cloudera, MapR…
Les technologies émergentes : Spark, Storm, Machine Learning Azure…
Installation d'une plateforme Hadoop
Déférentes des solutions de datavisualisation pour le Big Data (Talend, Tableau, Qlikview…)
5/ La collecte, le stockage des données et traitement des données
Sources
Analyser les caractéristiques d’un jeu de données
Principes ETL (Extract Transform Load)
Données structurées, semi structurées et non structurées
Rappels des principes du stockage distribué
Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…)
Prise en main d’HDFS et du modèle MapReduce
Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données
ElasticSearch pour l’indexation et la recherche de données
6/ Outils et techniques pour l’analyse de données massives
Différentes méthodes et techniques d’analyse
Définition de l’analyse statistique
Analyser un ensemble de données avec l’environnement Apache Spark
L'Intelligence Artificielle dans l'analyse prédictive
Introduction aux principes de Machine Learning
Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP
Technique de feature engineering pour préparer les données
Sélectionner, entraîner et tester un algorithme de Machine Learning
Principes du Deep Learning : apprentissage profond et réseaux neuronaux
7/ La visualisation des données (DATAVIZ)
Enjeux et objectifs d’une bonne communication
Parler les données, principes fondamentaux et objectifs de la dataviz
Limites des outils et méthodes traditionnels (Excel, BusinessObjects, etc)
Principes fondamentaux de la représentation visuelle
La Datavisualisation tout au long du processus Big Data
Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc)
Sélectionner une solution de datavisualisation selon l’objectif recherché
Les bonnes pratiques de Dataviz
Visualisation interactive
8/ Démonstration d’un environnement distribué HADOOP
Les moteurs de recherche de grande envergure
Présentation Lucene, Solr
Mécanisme de traitement
Gestion des journaux applicatifs
Mécanismes et architecture Apache Flume
La relation entre Cloud et Big Data
Motivation entre clouds publics et privés
Les clouds de stockage
Se reconcentrer sur les problématiques métiers, grâce aux services managés
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Chefs de projet
Data Scientists
Data Analysts
Développeurs
Analystes et statisticien
Toute personne en charge de la mise en oeuvre opérationnelle d’un projet Big Data en environnement Hadoop
Dates
Dates
Du 03 au 07 Juin 2024
Du 05 au 09 Août 2024
Du 07 au 11 Oct. 2024
Du 09 au 13 Déc. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.