Big Data & Open Source

Michel Bruley

« Libre » ne signifie pas toujours gratuit et de nombreux projets open source sont clairement développés dans une logique marchande. La diffusion de logiciels libres peut être faite selon différents modèles économiques : communautés, fondations, éditeurs, intégrateurs et prestataires de services. Pour mieux connaître ce domaine, vous pouvez utilement lire le livret de Systematic, consacré aux Modèles Economiques du Logiciel Libre : http://www.systematic-paris-region.org/fr/node/22805

Cela dit face à un projet Big Data, il est possible de s’équiper en logiciels libres que cela soit pour l’intégration, les traitements, le stockage, l’analyse et la restitution, comme le montre la petite revue ci-dessous de solutions libres :

Solutions d’intégration et de traitement de mégas données : Hadoop est un ensemble de projets et d’outils de la fondation Apache permettant de stocker et traiter massivement des données, https://hadoop.apache.org (voir aussi Storm) ; Apache Pig est un framework de requêtage et de traitement, https://pig.apache.org (voir aussi Cloudera Impala, Flume, Hive) ; Talend offre un ETL for Big Data, http://fr.talend.com/ (voir aussi Pentaho Data) ; Mule est un ESB, http://www.mulesoft.org

Solutions de stockage de mégas données : Apache Cassandra est une base de données NoSQL Colonne répartie en Peer to Peer http://cassandra.apache.org (voir aussi Apache HBase, la base de données du framework Hadoop) ; MongoDB est une base de données NoSQL Document, http://www.mongodb.org (voir aussi ElasticSearch) ; Neo4j est une base de données NoSQL Graph, http://www.neo4j.org ; il est aussi possible d’intégrer des données NoSQL dans des bases de données relationnelles (solutions de PostGreSQL ou de Cassandra) au sein d’un ODS ou un entrepôt de données de type base de données relationnelle et ainsi d’y accéder avec un langage SQL classique.

Solutions d’analyse et de restitution de mégas de données : Pentaho Business Analytics est un portail décisionnel complet, http://www.pentaho.fr (voir aussi JasperSoft BI Suite, Vanilla Platform) ; ElasticSearch Kibana est lui un portail de tableaux de bord web, http://www.elasticsearch.org

Pour une entreprise qui se lance pour la première fois dans un projet Big Data/Open Source, il est hautement recommandé de se faire accompagner par un conseil, qui devra d’abord aider à évaluer la faisabilité du projet dans le contexte spécifique de l’entreprise. Il existe de nombreux intégrateurs spécialisés dans les solutions open source comme : Altic, Audaxis, Core-Techs, Opensyscom, Progilone, Smile, sans oublier les départements spécialisés des grands intégrateurs classiques comme Capgemini ou Atos Consulting.

Pour aller plus loin sur ce sujet vous pouvez aussi consulter mes autres contributions sur mon blog : Propos sur les conseils en Big Data ; Solutions Big Data, revue de quelques nouveautés ; … - http://www.decideo.fr/bruley/

Big Data & Open Source

{{date}} {{title}}