Formation #BSI11

Formation Big Data : mise en œuvre

Durée : 5 jours

Code : BSI11

Prochaines dates programmées :

Du 03 au 07 Juin 2024

Du 05 au 09 Août 2024

Du 07 au 11 Oct. 2024

Du 09 au 13 Déc. 2024

Objectifs

Comprendre les spécificités propres aux projets Big Data

Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)

Mettre en œuvre une plateforme complète pour gérer vos données

Travailler avec Hadoop, Spark et Talend pour la datavisualisation

Programme

1/ Introduction

Les enjeux et perspectives du Big Data

Marché data au niveau mondial

Différents types de données

Structures de données

Sources de données

Big Data : solutions et acteurs du marché

Nouveaux métiers du Big Data

2/ Comprendre le Big Data

Définitions et concepts clés

Les dimensions en V du Big Data

Les architectures Big Data orientées stockage, calcul, temps réel…

Le cadre juridique des données

Cycle de vie de la donnée

La qualité des données

Vue d’ensemble d’un processus de Data Science

3/ Projet Big Data : méthodologie et démarche de l’implémentation

Les besoins métiers et objectifs d’un projet

Spécificités d’un projet Big Data

Les bons outils

Poser les bonnes questions

Obtenir les données

Explorer et prétraiter les données

Analyser les données : planifier et construire un modèle viable

Communiquer les résultats

Transformer les résultats en décisions et en actions

4/ Technologies et outils associées au Big Data

Architecture et composants de la plateforme Hadoop 2

Les modes de stockage (NoSQL, HDFS)

Fonctionnement de MapReduce et Yarn…

Principales distributions Hadoop : Hortonworks, Cloudera, MapR…

Les technologies émergentes : Spark, Storm, Machine Learning Azure…

Installation d'une plateforme Hadoop

Déférentes des solutions de datavisualisation pour le Big Data (Talend, Tableau, Qlikview…)

5/ La collecte, le stockage des données et traitement des données

Sources

Analyser les caractéristiques d’un jeu de données

Principes ETL (Extract Transform Load)

Données structurées, semi structurées et non structurées

Rappels des principes du stockage distribué

Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…)

Prise en main d’HDFS et du modèle MapReduce

Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données

ElasticSearch pour l’indexation et la recherche de données

6/ Outils et techniques pour l’analyse de données massives

Différentes méthodes et techniques d’analyse

Définition de l’analyse statistique

Analyser un ensemble de données avec l’environnement Apache Spark

L'Intelligence Artificielle dans l'analyse prédictive

Introduction aux principes de Machine Learning

Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP

Technique de feature engineering pour préparer les données

Sélectionner, entraîner et tester un algorithme de Machine Learning

Principes du Deep Learning : apprentissage profond et réseaux neuronaux

7/ La visualisation des données (DATAVIZ)

Enjeux et objectifs d’une bonne communication

Parler les données, principes fondamentaux et objectifs de la dataviz

Limites des outils et méthodes traditionnels (Excel, BusinessObjects, etc)

Principes fondamentaux de la représentation visuelle

La Datavisualisation tout au long du processus Big Data

Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc)

Sélectionner une solution de datavisualisation selon l’objectif recherché

Les bonnes pratiques de Dataviz

Visualisation interactive

8/ Démonstration d’un environnement distribué HADOOP

Les moteurs de recherche de grande envergure

Présentation Lucene, Solr

Mécanisme de traitement

Gestion des journaux applicatifs

Mécanismes et architecture Apache Flume

La relation entre Cloud et Big Data

Motivation entre clouds publics et privés

Les clouds de stockage

Se reconcentrer sur les problématiques métiers, grâce aux services managés

Approche Pédagogique

Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique

Cas pratiques

Remise d’outils

Echanges d’expériences

Public cible

Chefs de projet

Data Scientists

Data Analysts

Développeurs

Analystes et statisticien

Toute personne en charge de la mise en oeuvre opérationnelle d’un projet Big Data en environnement Hadoop

Dates

Du 03 au 07 Juin 2024
Du 05 au 09 Août 2024
Du 07 au 11 Oct. 2024
Du 09 au 13 Déc. 2024

Accueil Achats Anglais Professionnel Assistanat Assurance Audit Interne Banque Carrière Professionnelle Centre d'Appels Commercial - Vente Communication Comptabilité - Fiscalité Contrôle de Gestion Développement Durable Développement Personnel Direction d'entreprise Droit des affaires et social Efficacité professionnelle Finance et Trésorerie Formation International - Export Logistique - Supply Chain Management Management des risques Marketing Paie/Gestion admin. du personnel Projet Qualité/Sécurité/Env. Relation client Ressources humaines Secteur public Webmarketing Agilité Bases de données Big Data Cloud computing CRM Gestion de projets et méthodes IBM Applications IBM Systèmes Informatique décisionnelle Ingénierie logicielle Java, JEE, C, C++ Linux, Unix, Mac Management des SI Management ITIL Messagerie et communication Microsoft .NET Microsoft Applications Microsoft Système Mobilité Réseaux et Cisco Réseaux et Voix sur IP SAP Sécurité, Sauvegarde et Supervision Serveurs applicatifs Virtualisation et stockage Web - Digital Air - Gaz - Vapeur Analyse Industrielle Automatismes et Robotique Chimie Electricité & Electrotechnique Energie Industrielle Froid & Climatisation Hydraulique Informatique Industrielle Instrumentation & Régulation Maintenance Mécanique Médical / Santé / Pharmacie Méthodes Métrologie & Mesure Pneumatique Pompes & Vannes Production Risques & Sécurité Soudage Usinage & Matériaux Variation de vitesse