Catégorie
BI - BIG DATA
Nos formations sont organisées dans des places hotellières prestigieuses comme (MOVENPICK, HYATT REGENCY, BARCELO 5*, HOTEL MOGADOR, SOFITEL TOUR BLANCHE, ONOMO, AMPHITRITE …etc.) pour vous offrir un cadre agréable pour préparer vos certifications et profiter de la gastronomie des chefs ainsi que la belle vue de leurs restaurants.
Aperçu
Durée | 5 jours |
Niveau | Tous les niveaux |
Langue | Français |
Objectifs:
Le Big Data est un phénomène aux multiples facettes et il ne se résume pas à une technologie.
La première question à laquelle répond cette formation Big Data est « de quoi parle-t-on ?».
La réponse peut tenir en une seconde, en traduisant l’expression en français, ou tenir sur plusieurs jours. En effet, il existe une certaine confusion dans les termes, leurs rôles et leurs niveaux de dépendance (Big Data, IoT, Décisionnel, SGBD, NoSQL, Data Scientist, Cloud, Hadoop, Cloudera, Hortonworks, MapReduce, Dataviz, etc.).
Et les acteurs ? Le Big Data ne concerne-t-il que les poids lourds du paysage informatique ou les PME sont-elles aussi concernées ? L’informatique traditionnelle (applications, infrastructure, outils, etc.) doit-elle s’adapter ou s’agit-il de technologies parallèles et autonomes ? Quels sont les impacts précis du Big Data au niveau des compétences des informaticiens? De nouveaux métiers apparaissent ou sont-ils simplement remis sur le devant de la scène ?
Et que dit la loi sur le stockage et l’utilisation massive des données ? Quels sont les acteurs précis d’un projet Big Data et comment gère-t-on ce dernier par rapport à un projet « classique » ?
Quelles sont les spécificités d’une infrastructure Big Data, du stockage des données, de leur analyse ? Pourquoi la visualisation des données porte un nom (Dataviz) laissant penser qu’il s’agit d’une technologie à part entière ? Et plus généralement doit-on gérer un projet Big Data comme un projet classique ? etc.
PRÉ-REQUIS :
Il est recommandé d’avoir une culture générale de base en informatique (OS, base de données, etc.).
PUBLIC :
Cette formation s’adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs, data scientists, et plus généralement toute personne désirant disposer d’une vue globale et détaillée sur le Big Data.
Programme
CONTEXTE ET OPPORTUNITÉS DU BIG DATA
- Les origines du Big Data
- Les données au cœur des enjeux
- Explosion du nombre de données
- La place des objets connectés dans le Big Data
- Données structurées, semi-structurées, non structurées
- Comment disposer de données de « qualité » ?
- Les limites des architectures actuelles
- Définition d’un système Big Data
- Différences entre BI, Big Data et Data Science ?
SÉCURITÉ ÉTHIQUE ET ENJEUX JURIDIQUES DU BIG DATA
- Les données personnelles Les informations sensibles, interdites de collecte
- La CNIL régule les données numériques
- Les accords intra-pays
OPEN DATA
- La philosophie des données ouvertes et les objectifs
- Bénéfices escomptés
- Synergie avec le Big Data
LES PROJETS BIG DATA EN ENTREPRISE
- Spécificités d’un projet Big Data
- Enjeux stratégiques et organisationnels
- L’innovation constante accélère le phénomène
- Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
- Objets connectés et domotique
- Zoom sur le marché des biens et services proposés aux consommateurs
Fusionner les données exogènes et endogènes pour mieux comprendre les usagers - Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
- Architectures décisionnelles d’aujourd’hui
- Les lacs de données (Datalake) en pleine émergence
- Exemple de cahier des charges
ARCHITECTURE ET INFRASTRUCTURE BIG DATA
- Cohabitation des solutions SGBDR et NoSQL
- Les outils permettant d’extraire les données (ETL)
- La nécessité de “nettoyer” les données (dataquality)
- Exemple de traitement avec un ETL dédié Big data
- L’apport d’un MDM (Master Data Manager)
- Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
- Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)
L’ANALYSE DES DONNÉES ET LA VISUALISATION
- Définition de l’analyse statistique
- Requêter avec Hive
- Analyser les données (Pig, Mahout, etc.)
- Intégrer les données grâce à Sqoop
LE DÉVELOPPEMENT D’APPLICATIONS BIG DATA
- La philosophie de MapReduce (clef, valeur)
- L’apport d’Apache Spark
- Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
- Interconnexion avec les outils SPSS, R, SAS
- Conclusion : quelle famille et quel type de langage pour quel besoin ?
LA VISUALISATION DES DONNÉES (DATAVIZ)
- Ce que les statistiques ne disent pas
- Data visualisation et cas d’usage concrets
- Quels graphes pour quels usages ?
- Représentation de données complexes (encodage visuel, visualisation interactive)
- Savoir communiquer sur les analyses de données (Data Storytelling)
- Synthèse des principaux outils utilisés dans les projets
DÉMONSTRATION D’UN ENVIRONNEMENT DISTRIBUÉ HADOOP
- Les moteurs de recherche de grande envergure
- Présentation Lucene, Solr
- Mécanisme de traitement
- Gestion des journaux applicatifs
- Mécanismes et architecture Apache Flume
- La relation entre Cloud et Big Data
- Motivation entre clouds publics et privés
- Les clouds de stockage
- Se reconcentrer sur les problématiques métiers, grâce aux services managés
INTRODUCTION À LA FORMATION MACHINE LEARNING
- Intelligence Artificielle, Big Data, Data Science et Machine Learning : définitions et principes fondamentaux
- Retour historique sur l’apprentissage automatique
- Champs d’application du machine learning
- Terminologie (étiquette, caractéristique, modèle, inférence…)
- Exemples de mise en œuvre du machine learning
- Principaux outils : Jupyter notebooks, scikit-learn, Pandas, BigML, Dataiku
CATÉGORISATION DES TECHNIQUES ET ALGORITHMES D’APPRENTISSAGE
- Apprentissage supervisé
- Classification et régression
- Apprentissage non-supervisé
- Clustering
- Principaux algorithmes : Support Vector Machines, modèles de probabilité, arbres de décision, etc
- Modéliser les problématiques d’entreprise en problèmes de machine learning
- Workflow pour la construction d’un modèle
- Choisir un type d’apprentissage et un algorithme pertinents
OBTENTION ET PRÉPARATION DES DONNÉES
- Rappels sur les données (format, structuration, collecte, visualisation, interprétation)
- Obtenir les données
- La librairie open source scikit-learn
- Techniques d’exploration des données
- Feature Engineering (ingénierie des caractéristiques)
- Extraction et sélection des features
- Réduction de la dimension des données
- L’analyse en composantes principales (PCA)
EVALUATION DES MODÈLES D’APPRENTISSAGE
- Partitionner les données en ensembles d’apprentissage, de test et de validation
- Exemples pour l’entraînement d’un modèle
- Exemples pour le test d’un modèle
- Mesures de performance : précision et rappel, matrices de confusion, cross-validation
- Généralisation et risque de surapprentissage
- L’intuition derrière les techniques d’apprentissage
RÉGRESSION
- Principaux cas d’utilisation
- Régression linéaire simple
- Méthode des moindres carrés ordinaire
- Fonction de coût et algorithme du gradient
- Régularisation : régression ridge et lasso
- Les différents types de régression : multiple, polynomiale, SVR, arbre de décision, random forest, etc
- Les métriques de la régression
CLASSIFICATION
- Principaux cas d’utilisation
- Régression logistique
- Méthode des k plus proches voisins (k-NN)
- Machine à vecteurs de support (SVM)
- Kernel SVM
- Classification naïve bayésienne (Naive Bayes)
- Classification avec un arbre de décision et random forest
- Les métriques de la classification
CLUSTERING (SEGMENTATION)
- Principes et principaux algorithmes
- Méthode des k-moyennes (k-means)
- Clustering hiérarchique
- Clustering par densité
INTRODUCTION AU DEEP LEARNING (APPRENTISSAGE PROFOND)
- Présentation générale et principes du Deep Learning
- Les réseaux neuronaux artificiels
- La bibliothèque TensorFlow
- Cas d’utilisation, défis et perspectives