MA DÉCOVERTE DE …………..SPARK ET DES RESILIENT DISTRIBUTED DATASETS (RDD)

Mon expérience passée sur les « Big Data appliances », comme on les appelle dans le jargon, c’est à dire, des ordinateurs conçus spécialement pour l’analyse de grande quantités données,   m’a conduit tout naturellement à aller explorer les innombrables avancées dans ce domaine et la lumière fut………Spark !

En effet, j’ai récemment découvert ce framework,  qui a de plus en plus le vent en poupe !

Pour moi, le principe le plus important réside dans la compréhension de ce que sont les « Resilient Distributed Datasets ».  Par exemple, Hadoop, est résilient aux pannes ou aux défaillances du système, car les données sont écrites sur le disque après chaque opération et Spark offre la même résilience intégrée du fait que les objets de données sont stockés dans ces fameux RDD répartis sur le cluster de données !

Je compte aussi mettre a jour ce blog avec quelques examples d’analyse de données sur SCALA, la célèbre langue de programmation conçu a l’Ecole Polytechnique fédérale de Lausanne et qui  le langage natif de Spark !

Laisser un commentaire

%d blogueurs aiment cette page :