28H | Distanciel | 1500€ HT


Eligibilité CPF : À venir

Prochaines dates : Nous contacter

Validation visée à la fin de formation : Certification Microsoft DP-203 Ingénierie des données sur Microsoft Azure

Objectifs de la formation  : À l’issue de la formation, le stagiaire sera capable de :

  • Découvrir l’Engineering données dans le cadre du travail avec des solutions analytiques par lots et en temps réel utilisant les technologies de la plateforme de données Azure. 
  • Comprendre les technologies de calcul et de stockage de base qui sont utilisées pour construire une solution analytique. 
  • Explorer de manière interactive les données stockées dans des fichiers dans un lac de données.
  • Connaître les différentes techniques d’ingestion qui peuvent être utilisées pour charger des données à l’aide de la fonctionnalité Apache Spark présente dans Azure Synapse Analytics ou Azure Databricks, ou comment l’utiliser à l’aide d’Azure Data Factory ou des pipelines Azure Synapse. 
  • Connaître les différentes façons de transformer les données à l’aide des mêmes technologies que celles utilisées pour l’acquisition des données. 
  • Comprendre l’importance de la mise en œuvre de la sécurité pour s’assurer que les données sont protégées au repos ou en transit. 
  • Créer un système analytique en temps réel pour créer des solutions analytiques en temps réel.

Public : Professionnels des données, architectes des données et professionnels du décisionnel qui souhaitent en savoir plus sur l’ingénierie des données et la création de solutions analytiques à l’aide des technologies de plateforme de données présentes sur Microsoft Azure. Également les analystes de données et chercheurs en données travaillant avec des solutions analytiques basées sur Microsoft Azure.

Prérequis : Disposer d’un accès à Internet, connaître le principe des bases de données.

Admission en formation : Test de positionnement

Accessibilité aux personnes en situation de handicap : Nous contacter

Equipe pédagogique : Formateur certifié Microsoft, ingénieur DATA et IA 

Moyens pédagogiques et techniques : Support de cours officiel Microsoft en anglais, Animation de la formation en français, Bac à sable Microsoft.

Évaluation : Questionnaire de satisfaction, questionnaire de positionnement en amont de la formation pour vérifier le niveau  de connaissance, Test de connaissance pendant la formation (QCM, mise en situation,…), Évaluation officielle Microsoft (optionnelle)

Programme : 

Concevoir et mettre en œuvre le stockage de données (40 – 45 %)

Concevoir une structure de stockage de données

• Concevoir une solution Azure Data Lake

• Recommander des types de fichiers pour le stockage

• Recommander des types de fichiers pour les requêtes analytiques

• Conception pour une interrogation efficace

• Conception pour l’élagage des données

• Concevoir une structure de dossiers qui représente les niveaux de transformation des données

• Concevoir une stratégie de distribution

• Concevoir une solution d’archivage de données

• Concevoir une stratégie de partition

• Concevoir une stratégie de partition pour les fichiers

• Concevoir une stratégie de partition pour les charges de travail analytiques

• Concevoir une stratégie de partition pour l’efficacité/performance

• Concevoir une stratégie de partition pour Azure Synapse Analytics

• Identifier quand le partitionnement est nécessaire dans Azure Data Lake Storage Gen2

Concevoir la couche de service

• Concevoir des schémas en étoile

• Concevoir des dimensions à évolution lente

• Concevoir une hiérarchie dimensionnelle

• Concevoir une solution pour les données temporelles

• Conception pour chargement incrémentiel

• Concevoir des magasins analytiques

• Concevoir des métastores dans Azure Synapse Analytics et Azure Databricks

Mettre en œuvre des structures de stockage de données physiques

• Mettre en œuvre la compression

• Implémenter le partitionnement

• Mettre en œuvre le partage

• Implémenter différentes géométries de table avec les pools Azure Synapse Analytics

• Mettre en œuvre la redondance des données

• Mettre en œuvre les distributions

• Mettre en œuvre l’archivage des données

Mettre en œuvre des structures de données logiques

• Construire une solution de données temporelles

• Construire une dimension qui évolue lentement

• Construire une structure de dossiers logique

• Créer des tables externes

• Mettre en œuvre des structures de fichiers et de dossiers pour une interrogation et un élagage des données efficaces

Implémenter la couche de service

• Fournir des données dans une étoile relationnelle

• Fournir des données dans des fichiers Parquet

• Maintenir les métadonnées

• Implémenter une hiérarchie dimensionnelle

Concevoir et développer le traitement des données (25 – 30 %)

Ingérer et transformer des données

• Transformer les données à l’aide d’Apache Spark

• Transformer les données à l’aide de Transact-SQL

• Transformer les données à l’aide de Data Factory

• Transformer les données à l’aide d’Azure Synapse Pipelines

• Transformer les données à l’aide de Stream Analytics

• Nettoyer les données

• Diviser les données

• Déchiqueter JSON

• Encoder et décoder les données

• Configurer la gestion des erreurs pour la transformation

• Normaliser et dénormaliser les valeurs

• Transformer les données à l’aide de Scala

• Effectuer une analyse exploratoire des données

Concevoir et développer une solution de traitement par lots

• Développer des solutions de traitement par lots en utilisant Data Factory, Data Lake, Spark, Azure Synapse Pipelines, PolyBase et Azure Databricks

• Créer des pipelines de données

• Concevoir et mettre en œuvre des chargements de données incrémentiels

• Concevoir et développer des dimensions à évolution lente

• Gérer les exigences de sécurité et de conformité

• Échelle des ressources

• Configurer la taille du lot

• Concevoir et créer des tests pour les pipelines de données

• Intégrer des blocs-notes Jupyter/Python dans un pipeline de données

• Gérer les données en doublon

• Gérer les données manquantes

• Gérer les données tardives

• Mettre à jour les données

• Régresser à un état antérieur

• Concevoir et configurer la gestion des exceptions

• Configurer la conservation des lots

• Concevoir une solution de traitement par lots

• Déboguer les tâches Spark à l’aide de l’interface utilisateur Spark

Concevoir et développer une solution de traitement de flux

• Développer une solution de traitement de flux à l’aide de Stream Analytics, Azure Databricks et Azure Centres d’événements

• Traiter les données à l’aide du streaming structuré Spark

• Surveiller les performances et les régressions fonctionnelles

• Concevoir et créer des agrégats fenêtrés

• Gérer la dérive de schéma

• Traiter les données de séries chronologiques

• Traiter sur plusieurs partitions

• Traiter au sein d’une partition

• Configurer les points de contrôle/filigrane pendant le traitement

• Échelle des ressources

• Concevoir et créer des tests pour les pipelines de données

• Optimiser les pipelines à des fins analytiques ou transactionnelles

• Gérer les interruptions

• Concevoir et configurer la gestion des exceptions

• Mettre à jour les données

• Rejouer les données de flux archivées

• Concevoir une solution de traitement de flux

Gérer les lots et les pipelines

• Déclencher des lots

• Gérer les chargements par lots ayant échoué

• Valider les chargements de lots

• Gérer les pipelines de données dans Data Factory/Synapse Pipelines

• Planifier des pipelines de données dans Data Factory/Synapse Pipelines

• Mettre en œuvre le contrôle de version pour les artefacts de pipeline

• Gérer les tâches Spark dans un pipeline

Concevoir et mettre en œuvre la sécurité des données (10 – 15 %)

Concevoir la sécurité pour les politiques et les normes de données

• Concevoir le chiffrement des données pour les données au repos et en transit

• Concevoir une stratégie d’audit des données

• Concevoir une stratégie de masquage des données

• Conception pour la confidentialité des données

• Concevoir une politique de conservation des données

• Conception pour purger les données en fonction des besoins de l’entreprise

• Concevoir un contrôle d’accès basé sur les rôles Azure (Azure RBAC) et une liste de contrôle d’accès (ACL) de type POSIX pour Data Lake Storage Gen2

• Concevoir une sécurité au niveau des lignes et des colonnes

Mettre en œuvre la sécurité des données

• Mettre en œuvre le masquage des données

• Chiffrer les données au repos et en mouvement

• Mettre en œuvre la sécurité au niveau des lignes et des colonnes

• Implémenter Azure RBAC

• Implémenter d’ACL de type POSIX pour Data Lake Storage Gen2

• Mettre en place une politique de conservation des données

• Mettre en œuvre une stratégie d’audit des données

• Gérer les identités, les clés et les secrets sur différentes technologies de plate-forme de données

• Mettre en œuvre des terminaux sécurisés (privés et publics)

• Implémenter des jetons de ressources dans Azure Databricks

• Charger un DataFrame avec des informations sensibles

• Écrire des données chiffrées dans des tables ou des fichiers Parquet

• Gérer les informations sensibles

Surveiller et optimiser le stockage et le traitement des données (10 – 15 %)

Surveiller le stockage et le traitement des données

• Implémenter la journalisation utilisée par Azure Monitor

• Configurer les services de surveillance

• Mesurer les performances du déplacement des données

• Surveiller et mettre à jour les statistiques sur les données d’un système

• Surveiller les performances du pipeline de données

• Mesurer les performances des requêtes

• Surveiller les performances du cluster

• Comprendre les options de journalisation personnalisées

• Planifier et surveiller les tests de pipelines

• Interpréter les métriques et les journaux Azure Monitor

• Interpréter un graphe acyclique orienté Spark (DAG)

Optimiser et dépanner le stockage et le traitement des données

• Petits fichiers compacts

• Réécrire les fonctions définies par l’utilisateur (UDF)

• Gérer l’asymétrie des données

• Gérer le déversement de données

• Ajuster les partitions aléatoires

• Trouver un brassage dans un pipeline

• Optimiser la gestion des ressources

• Optimiser les requêtes à l’aide d’indexeurs

• Optimiser les requêtes à l’aide du cache

• Optimiser les pipelines à des fins analytiques ou transactionnelles

• Optimiser le pipeline pour les charges de travail descriptives par rapport aux charges de travail analytiques

• Résoudre les problèmes d’échec d’une tâche Spark

• Résoudre les problèmes liés à l’échec d’une exécution de pipeline

630
Nombre de personnes forméesu003cbru003e

Commentaires de nos stagiaires

“Le formateur dispose d’une connaissance solide de son sujet.”

PL-300, Le 05/10/2022

“Sympathique et synthétique”

PL-300, Le 05/10/2022

Très bonne connaissance de l’animateur avec des infos et prise en compte de nos questions.

PL-300, Le 05/10/2022