Data

Data Engineering

data engineering

Durée

2 Jours

Langues

Anglais - Français

Formateur(s)

Thibault PERIER - Lead Data Engineer Astrakhan

Dans ce programme, vous aborderez le Data Engineering, un domaine lié à l’augmentation rapide du nombre de données collectées ces dernières années. Il couvre de nombreuses compétences, que ce soit en architecture de données, en stockage, en traitement de la donnée et exige même d’aller jusqu’à connaître des éléments de Data Science.

Cette formation aura pour but de présenter les concepts liés au Data Engineering, les connaissances et les compétences du Data Engineer à travers notamment la présentation de quelques exemples concrets utilisant les outils ou langages de programmation les plus utilisés pour chaque concept. Par rapport à la formation Data Architect, la formation Data Engineering descend davantage dans le détail des technologies qui couvrent toute la chaîne de traitement.

Public cible

  • DBA
  • Data Architects
  • Data Scientists

Prérequis

  • Quelques connaissances dans le domaine du traitement de la donnée ou sur un sujet précis (Analyse, Architecture, Stockage…)

Fonctionnement

Sur place,
dans vos locaux

A distance,
via Teams

Workshops

Programme détaillé

Introduction au Data Engineering

Comment en est-on arrivé au Data Engineering ?

  • Ere des données relationnelles & Business Intelligence traditionnelle
  • Big Data, Hadoop & nouvelles technologies de stockage
  • Big Data & nouvelles méthodes d’intégration
  • Infrastructures & industrialisation (intro)

La place du Data Engineering

  • Chaine de valeur Data
  • Rôles autour de la chaine de valeur Data
  • Data Engineering vs Data Scientist
  • Data Science & Machine Learning

Le Data Engineer

  • Connaissances de base en informatique requises
  • Compétences en langages de programmation pour chaque partie de la chaine de traitement des données
  • Connaissance des bases de données

Stockage de données

  • Base de données relationnelles et SQL (MySQL, Oracle, SQL Server, PostgreSQL), 
  • NoSQL (MongoDB, Elasticsearch…)
  • Hadoop (HDFS)

Traitement des données

  • Qu’est-ce que c’est ?
  • Types de traitement
  • Exemple avec Pyspark (Spark avec Python)

Construction de Workflow 

  • Planification de workflow
  • Suivi des pipelines de données
  • Exemple de planification de workflow avec Apache Airflow

L’infrastructure comme code

  • Infrastructures & industrialisation
  • Conteneurs (Docker)
  • Orchestration des conteneurs (Kubernetes)
  • Mise à disposition d’infrastructures (Terraform, Amazon Cloud formation, Azure Resource manager)

Découvrez également sur notre blog :