Sans aucun doute Apache Spark est le framework open source qui a montré sa réussite auprès de plusieurs géant de l’informatique et de l’industrie. Apache Spark nous permet d’analyser et traiter des données massives structurées, semi structurées et non structurées.
Apache Spark fonctionne avec de la programmation distribuée et en mémoire (in-memory) afin d’accélérer les traitements et en s’appuyant sur plusieurs machines d’un réseau ( Cluster ).
Dans cette formation vous aurez besoin uniquement d’un PC connecté à internet. Vous allez apprendre à mettre en place un environnement local avec une machine Virtuelle Linux (VM), télécharger Spark, télécharger Scala et la configuration de Spark en utilisant Scala.
Vous allez vous familiariser avec les principes fondamentaux de Spark en utilisant le langage Scala. Apache Spark est écrit en Scala. Il fonctionne en Java virtuel machines (JVM). Vous aurez une mise à niveau en douceur avec le langage de programmation Scala avec une initiation à la programmation fonctionnelle.
Manipuler un RDD (le cœur moteur de Apache Spark) avec des collections de données sera un jeux d’enfant.
Vous allez découvrir dans la partie Spark SQL les DataFrame à partir :
- d’une collection de données,
- des fichiers en entrée tel que csv, Json, Parquet
- de base de données PostgreSQL
Surement vous avez entendu parler des traitements des données qui arrivent en temps réel, sous le nom Streaming. Une Partie de cette formation bien détaillée vous attend afin que vous puissiez monter en compétence rapidement avec Spark Streaming avec des cas pratiques.