Le Big Data : des zettaoctets de données à analyser pour en extraire de la valeur !!
Mais pour y arriver, il faut des experts et des technologies
Hadoop est la technologie phare depuis plusieurs années, ou plutôt un éco-système qui regroupe non seulement MapReduce, Yarn et HDFS mais aussi de manière plus vaste Spark, des bases NoSQL et des outils de traitements temps réel des données
Comment démarrer, comment progresser avec Hadoop ?
Avec cette formation, vos compétences s’améliorent chapitre après chapitre, les objectifs sont clairement définis
Je vous accompagne dès l’installation d’Hadoop sur votre PC ou Mac
Le concepts de base vous sont expliqués progressivement puis vous vous exercez immédiatement en suivant les vidéos de démonstration
Des quiz à chaque fin de chapitre vous permettent de valider vos connaissances, et les très nombreuses ressources fournies vous permettent d’aller plus loin sur l’outil de votre choix
La formation va vous permettre d’acquérir des compétences claires et très recherchées
Si vous souhaitez faire les 3h d’exercices, n’oubliez pas qu’Hadoop réclame une configuration PC/Mac avec 16Gb de RAM pour que cela soit confortable
N’hésitez pas à pratiquer régulièrement pour devenir un expert dans ces technologies
La formation met aussi l’accent sur le support des technologies Hadoop dans le cloud computing avec AWS et Azure
Les principes du Big Data
-
1Bienvenue dans le Big Data avec Hadoop
En ressources vous trouverez:
- Le rapport 2011 de McKinsey - Big Data : la nouvelle frontière pour l’innovation, la compétition et la productivité
- Le rapport 2015 de l'Institut Montaigne - Big Data et objets connectés
-
2Quiz de départ : choisissez la meilleure réponse
-
3La roue des compétences
Hadoop : présentation générale
Le cœur d'Hadoop : HDFS, MapReduce et YARN
-
11Compétence 2 : je peux expliquer ce qu'est Hadoop
-
12A la rencontre d'Hadoop
-
13L'écosystème Hadoop : un foisonnement de logiciels
-
14Que peut-on faire avec Hadoop ?
-
15Comment se procurer Hadoop ?
-
16PRATIQUE - Une installation d'Hadoop avec Oracle VM
En ressources vous trouverez 2 documents sur la Virtual Box d'Oracle VM
-
17L'administration graphique d'Hadoop avec Ambari
En ressources vous trouverez des documents explicatifs sur Ambari
-
18PRATIQUE - Ambari
-
19Quiz : choisissez la meilleure réponse
Les bases de données relationnelles et NoSQL avec Hadoop
-
20Compétence 3 : je comprends le fonctionnement interne d'Hadoop
-
21HDFS : le système de gestion distribué des fichiers Hadoop
En ressources vous trouverez une documentation sur le design de HDFS
-
22PRATIQUE - Charger des fichiers dans HDFS
En ressources vous trouverez la liste des commandes HDFS
-
23MapReduce : pour traiter en parallèle les volumes importants de données
En ressources vous trouverez 2 documents complémentaires sur MapReduce
-
24PRATIQUE MapReduce - Compter le nombre de naissances par prénom
-
25YARN : la planification des traitements et la gestion des ressources d'Hadoop
En ressources vous trouverez un document pour aller plus loin sur YARN
-
26PRATIQUE - YARN
-
27Quiz : choisissez la meilleure réponse
Programmation avec Hadoop : Spark et Pig
-
28Compétence 4 : je sais choisir quelle base de données utiliser avec Hadoop
-
29Comment sont vos données ? Structurées ou non ?
En ressources vous trouverez le document d'origine sur les règles de Codd
-
30Hive : entrepôt de données
En ressources vous trouverez des documents complémentaires sur Hive
-
31PRATIQUE : Hive
-
32MySQL : base de données relationnelle
En ressources vous trouverez le guide complet de MySQL v5
-
33PRATIQUE : MySQL
-
34Sqoop : transférer les données relationnelles avec Hadoop
-
35PRATIQUE : Sqoop
-
36Le NoSQL : cas d'usages
-
37HBase : base de données non relationnelle et distribuée
En ressources vous trouverez des documents complémentaires sur HBase
-
38PRATIQUE - HBase
-
39Cassandra : aucun point de défaillance possible
En ressources vous trouverez un guide détaillé de Cassandra
-
40PRATIQUE - Cassandra
-
41MongoDB : la base de données orientée document
En ressources vous trouverez un document complémentaire sur MongoDB
-
42PRATIQUE - MongoDB
-
43Quiz : choisissez la meilleure réponse
Traitement des données en temps réel
-
44Compétence 5 : j'ai une connaissance générale du fonctionnement de la programmat
-
45Pig : créer vos programmes MapReduce
En ressources vous trouverez un document de recherche sur Pig
-
46PRATIQUE - Pig
-
47Spark : le logiciel phare d'Hadoop
En ressources vous trouverez 2 documents complémentaires sur Spark
-
48Quiz : choisissez la meilleure réponse
La gestion d'Hadoop
-
49Compétence 6 : je comprends la force d'Hadoop dans le traitement temps réel
-
50Hadoop et les données en temps réel
-
51Kafka : manipuler les flux de données
En ressources vous trouverez une documentation de référence sur Kafka
-
52PRATIQUE - Kafka
-
53Flume : pour agréger en temps réel les logs de vos serveurs Web
En ressources vous trouverez le guide utilisateur de Flume
-
54SparkStreaming : pour valoriser vos données en temps réel
En ressources vous trouverez un document de recherche sur SparkStreaming
-
55PRATIQUE - SparkStreaming
-
56Storm : les événements en temps réel
En ressources vous trouverez un document récapitulatif de Storm
-
57Flink : traitement distribué en pipeline
En ressources vous trouverez 2 documents complémentaires pour Flink
-
58Comparaison SparkStreaming, Storm et Flink
-
59Quiz : choisissez la meilleure réponse
Hadoop dans le Cloud
-
60Compétence 7 : je sais à quoi servent les principaux outils de gestion d'Hadoop
-
61Pourquoi autant d'outils différents ?
-
62YARN en détail
En ressources vous trouverez un document de recherche sur YARN
-
63Mesos : la gestion de clusters
En ressources vous trouverez un document de recherche sur Mesos et le 1er chapitre d'un livre dédié à Mesos
-
64Tez : pour remplacer MapReduce
En ressources vous trouverez un document de recherche sur Tez
-
65PRATIQUE - Tez
-
66Oozie : planifier les jobs Hadoop
-
67Zookeeper : pour gérer les configurations
En ressources vous trouverez 3 documents complémentaires sur ZooKeeper
-
68Zeppelin : mettre en forme et visualiser vos données
En ressources vous trouverez un guide résumé de Zeppelin
-
69PRATIQUE - Zeppelin
-
70Quiz : choisissez la meilleure réponse
Congratulations : vous êtes désormais prêt pour Hadoop
-
71Compétence 8 : je peux recommander d'utiliser le Cloud pour faire de l'Hadoop
-
72Pourquoi aller vers le Cloud ?
-
73L'offre HDInsight de Microsoft Azure
En ressources vous trouverez la documentation complète de HDInsight
-
74PRATIQUE - HDInsight
-
75L'offre AWS
En ressources vous trouverez une documentation de référence sur EMR
-
76PRATIQUE - AWS
-
77L'offre de Google
-
78PRATIQUE - Google
-
79Quiz : choisissez la meilleure réponse