Patrick COFFRE, Community Manager, Talend
EDF a commencé la présentation par une explication de leur présence au Hadoop User Group en tant que conférencier. Elle est d’abord une société de production d’électricité qui est aussi passée à la gestion d’informations. En effet, les « Smart Grids », en cours de déploiement, vont gérer l’utilisation de l’électricité des consommateurs français et accélèrent la production d’information.
Le « Smart Grid » est un outil du réseau électrique « intelligent » qui utilise des technologies informatiques pour maximiser la production, la distribution, la consommation et qui a pour objectif d’optimiser l’ensemble des mailles du réseau qui va de tous les producteurs à tous les consommateurs, afin d’améliorer l'efficacité énergétique de l'ensemble. Pour plus d’informations concernant les Smart Grids, je vous conseille de vous rendre sur la page Wikipédia suivante: http://fr.wikipedia.org/wiki/Smart_grid Les Smart Grids génèrent une centaine de téraoctets d’information traité, ce qui ne semble pas être un volume trop conséquent de données pour la société.
Ensuite, les conférenciers nous présentent le secteur, considéré comme étant en ébullition. La multiplication des acteurs avec une ouverture à la concurrence mais aussi les nouvelles données émanant des Smart Grids et les données du web à analyser, comme celles de forums, blogs ou d’open data sont autant d’éléments prouvant qu’EDF évolue de la simple production électrique.
L’aventure Hadoop chez EDF a commencé par une étude de faisabilité. Celle-ci a rendu possible l’évaluation du potentiel d’Apache Hadoop. Les ingénieurs ont aussi dû trouver le meilleur mode de représentation pour les courbes de charge électrique, identifier les options de stockage et de partition des données ainsi que déterminer des éléments pour approfondir leur réflexion.
En terme de contexte, les ingénieurs ont recensé qu’ils avaient de nombreuses données à stocker et analyser, telles que les données de courbes de charges, des données météorologiques, des informations contractuelles ainsi que la topologie du réseau. De même, nous avons appris qu’une mesure est effectuée toutes les dix minutes pour chaque client, avec un ensemble de 35 millions d’abonnés.
Le volume annuel de données s’établit à 1800 milliards de lignes, ce qui représente une quantité totale de 120 téraoctets de données brutes.
Un « Proof Of Concept » a été réalisé en interne sur un cluster de 20 nœuds, 132 téraoctets de stockage avec 336 cœurs. Les distributions utilisées sont CDH3, HIVE et HBASE. Les résultats sont positifs ainsi que compétitifs et ont débouché sur l’utilisation d'un nouveau cluster de 10 nœuds avec 280 téraoctets sur HDP2. Le but d'Hadoop, dans ces utilisations, est de traiter des données brutes et massives pour faire des analyses précises.
Un second « Proof Of Concept » a été réalisé avec Storm (une librairie de programmation Python), pour effectuer du temps réel de données de consommation électrique (travaux menés avec Octo Technology).
Les données en entrée proviennent du Smart Metering, des prévisions météorologiques, tarifs ainsi que des données clients. En sortie, les ingénieurs débouchent sur des agrégats simples et ventilés, de l’analytique et des prévisions.
Les résultats des « Proof of Concepts » montrent que la solution est crédible. Elle couvre le spectre fonctionnel et le coût de gestion est peu élevé. Par contre, les conférenciers nous expliquent que les équipes manquent d’un studio de développement et doivent s'investir dans un nouvel outil, ce qui demande de l’apprentissage.
L’évènement aura aussi été l’occasion de découvrir que la société utilise HETA (Hadoop Environment for Text Analysis) pour l'analyse des données non structurées, comme les tweets, les blogs et le XML. Pour ce faire, un cluster de 5 nœuds a été mis en production. Et pendant la présentation, nous avons pu suivre une démonstration avec des tweets ayant pu être répertoriés puis insérés dans un graphique.
Ce meetup Hadoop aura donné la possibilité à EDF de déplacer leurs ingénieurs pour expliquer comment ils ont testé la technologie, avec de grandes quantités de données émanant d’un territoire aussi étendu que la France. Ce cas pratique démontre qu’une entreprise, dont le métier premier est celui de la production d’énergie, est aussi passée à la gestion de l’information, pour mieux contrôler les centrales, comprendre les utilisations des consommateurs et prévoir les activités futures sur le réseau.
Au-delà, on arrive mieux à concevoir que des entreprises puissent administrer leurs données grâce à Hadoop. La technologie permet de gérer tous types de données, y compris les tweets, blogs et XML. L’utilisation est facilitée grâce à la gestion en cluster hébergé dans l’entreprise et le coût global lié aux données est réduit.
Le « Smart Grid » est un outil du réseau électrique « intelligent » qui utilise des technologies informatiques pour maximiser la production, la distribution, la consommation et qui a pour objectif d’optimiser l’ensemble des mailles du réseau qui va de tous les producteurs à tous les consommateurs, afin d’améliorer l'efficacité énergétique de l'ensemble. Pour plus d’informations concernant les Smart Grids, je vous conseille de vous rendre sur la page Wikipédia suivante: http://fr.wikipedia.org/wiki/Smart_grid Les Smart Grids génèrent une centaine de téraoctets d’information traité, ce qui ne semble pas être un volume trop conséquent de données pour la société.
Ensuite, les conférenciers nous présentent le secteur, considéré comme étant en ébullition. La multiplication des acteurs avec une ouverture à la concurrence mais aussi les nouvelles données émanant des Smart Grids et les données du web à analyser, comme celles de forums, blogs ou d’open data sont autant d’éléments prouvant qu’EDF évolue de la simple production électrique.
L’aventure Hadoop chez EDF a commencé par une étude de faisabilité. Celle-ci a rendu possible l’évaluation du potentiel d’Apache Hadoop. Les ingénieurs ont aussi dû trouver le meilleur mode de représentation pour les courbes de charge électrique, identifier les options de stockage et de partition des données ainsi que déterminer des éléments pour approfondir leur réflexion.
En terme de contexte, les ingénieurs ont recensé qu’ils avaient de nombreuses données à stocker et analyser, telles que les données de courbes de charges, des données météorologiques, des informations contractuelles ainsi que la topologie du réseau. De même, nous avons appris qu’une mesure est effectuée toutes les dix minutes pour chaque client, avec un ensemble de 35 millions d’abonnés.
Le volume annuel de données s’établit à 1800 milliards de lignes, ce qui représente une quantité totale de 120 téraoctets de données brutes.
Un « Proof Of Concept » a été réalisé en interne sur un cluster de 20 nœuds, 132 téraoctets de stockage avec 336 cœurs. Les distributions utilisées sont CDH3, HIVE et HBASE. Les résultats sont positifs ainsi que compétitifs et ont débouché sur l’utilisation d'un nouveau cluster de 10 nœuds avec 280 téraoctets sur HDP2. Le but d'Hadoop, dans ces utilisations, est de traiter des données brutes et massives pour faire des analyses précises.
Un second « Proof Of Concept » a été réalisé avec Storm (une librairie de programmation Python), pour effectuer du temps réel de données de consommation électrique (travaux menés avec Octo Technology).
Les données en entrée proviennent du Smart Metering, des prévisions météorologiques, tarifs ainsi que des données clients. En sortie, les ingénieurs débouchent sur des agrégats simples et ventilés, de l’analytique et des prévisions.
Les résultats des « Proof of Concepts » montrent que la solution est crédible. Elle couvre le spectre fonctionnel et le coût de gestion est peu élevé. Par contre, les conférenciers nous expliquent que les équipes manquent d’un studio de développement et doivent s'investir dans un nouvel outil, ce qui demande de l’apprentissage.
L’évènement aura aussi été l’occasion de découvrir que la société utilise HETA (Hadoop Environment for Text Analysis) pour l'analyse des données non structurées, comme les tweets, les blogs et le XML. Pour ce faire, un cluster de 5 nœuds a été mis en production. Et pendant la présentation, nous avons pu suivre une démonstration avec des tweets ayant pu être répertoriés puis insérés dans un graphique.
Ce meetup Hadoop aura donné la possibilité à EDF de déplacer leurs ingénieurs pour expliquer comment ils ont testé la technologie, avec de grandes quantités de données émanant d’un territoire aussi étendu que la France. Ce cas pratique démontre qu’une entreprise, dont le métier premier est celui de la production d’énergie, est aussi passée à la gestion de l’information, pour mieux contrôler les centrales, comprendre les utilisations des consommateurs et prévoir les activités futures sur le réseau.
Au-delà, on arrive mieux à concevoir que des entreprises puissent administrer leurs données grâce à Hadoop. La technologie permet de gérer tous types de données, y compris les tweets, blogs et XML. L’utilisation est facilitée grâce à la gestion en cluster hébergé dans l’entreprise et le coût global lié aux données est réduit.