Michel Bruley
« Libre » ne signifie pas toujours gratuit et de nombreux projets open source sont clairement développés dans une logique marchande. La diffusion de logiciels libres peut être faite selon différents modèles économiques : communautés, fondations, éditeurs, intégrateurs et prestataires de services. Pour mieux connaître ce domaine, vous pouvez utilement lire le livret de Systematic, consacré aux Modèles Economiques du Logiciel Libre : http://www.systematic-paris-region.org/fr/node/22805
Cela dit face à un projet Big Data, il est possible de s’équiper en logiciels libres que cela soit pour l’intégration, les traitements, le stockage, l’analyse et la restitution, comme le montre la petite revue ci-dessous de solutions libres :
Solutions d’intégration et de traitement de mégas données : Hadoop est un ensemble de projets et d’outils de la fondation Apache permettant de stocker et traiter massivement des données, https://hadoop.apache.org (voir aussi Storm) ; Apache Pig est un framework de requêtage et de traitement, https://pig.apache.org (voir aussi Cloudera Impala, Flume, Hive) ; Talend offre un ETL for Big Data, http://fr.talend.com/ (voir aussi Pentaho Data) ; Mule est un ESB, http://www.mulesoft.org
Solutions de stockage de mégas données : Apache Cassandra est une base de données NoSQL Colonne répartie en Peer to Peer http://cassandra.apache.org (voir aussi Apache HBase, la base de données du framework Hadoop) ; MongoDB est une base de données NoSQL Document, http://www.mongodb.org (voir aussi ElasticSearch) ; Neo4j est une base de données NoSQL Graph, http://www.neo4j.org ; il est aussi possible d’intégrer des données NoSQL dans des bases de données relationnelles (solutions de PostGreSQL ou de Cassandra) au sein d’un ODS ou un entrepôt de données de type base de données relationnelle et ainsi d’y accéder avec un langage SQL classique.
Solutions d’analyse et de restitution de mégas de données : Pentaho Business Analytics est un portail décisionnel complet, http://www.pentaho.fr (voir aussi JasperSoft BI Suite, Vanilla Platform) ; ElasticSearch Kibana est lui un portail de tableaux de bord web, http://www.elasticsearch.org
Pour une entreprise qui se lance pour la première fois dans un projet Big Data/Open Source, il est hautement recommandé de se faire accompagner par un conseil, qui devra d’abord aider à évaluer la faisabilité du projet dans le contexte spécifique de l’entreprise. Il existe de nombreux intégrateurs spécialisés dans les solutions open source comme : Altic, Audaxis, Core-Techs, Opensyscom, Progilone, Smile, sans oublier les départements spécialisés des grands intégrateurs classiques comme Capgemini ou Atos Consulting.
Pour aller plus loin sur ce sujet vous pouvez aussi consulter mes autres contributions sur mon blog : Propos sur les conseils en Big Data ; Solutions Big Data, revue de quelques nouveautés ; … - http://www.decideo.fr/bruley/
Cela dit face à un projet Big Data, il est possible de s’équiper en logiciels libres que cela soit pour l’intégration, les traitements, le stockage, l’analyse et la restitution, comme le montre la petite revue ci-dessous de solutions libres :
Solutions d’intégration et de traitement de mégas données : Hadoop est un ensemble de projets et d’outils de la fondation Apache permettant de stocker et traiter massivement des données, https://hadoop.apache.org (voir aussi Storm) ; Apache Pig est un framework de requêtage et de traitement, https://pig.apache.org (voir aussi Cloudera Impala, Flume, Hive) ; Talend offre un ETL for Big Data, http://fr.talend.com/ (voir aussi Pentaho Data) ; Mule est un ESB, http://www.mulesoft.org
Solutions de stockage de mégas données : Apache Cassandra est une base de données NoSQL Colonne répartie en Peer to Peer http://cassandra.apache.org (voir aussi Apache HBase, la base de données du framework Hadoop) ; MongoDB est une base de données NoSQL Document, http://www.mongodb.org (voir aussi ElasticSearch) ; Neo4j est une base de données NoSQL Graph, http://www.neo4j.org ; il est aussi possible d’intégrer des données NoSQL dans des bases de données relationnelles (solutions de PostGreSQL ou de Cassandra) au sein d’un ODS ou un entrepôt de données de type base de données relationnelle et ainsi d’y accéder avec un langage SQL classique.
Solutions d’analyse et de restitution de mégas de données : Pentaho Business Analytics est un portail décisionnel complet, http://www.pentaho.fr (voir aussi JasperSoft BI Suite, Vanilla Platform) ; ElasticSearch Kibana est lui un portail de tableaux de bord web, http://www.elasticsearch.org
Pour une entreprise qui se lance pour la première fois dans un projet Big Data/Open Source, il est hautement recommandé de se faire accompagner par un conseil, qui devra d’abord aider à évaluer la faisabilité du projet dans le contexte spécifique de l’entreprise. Il existe de nombreux intégrateurs spécialisés dans les solutions open source comme : Altic, Audaxis, Core-Techs, Opensyscom, Progilone, Smile, sans oublier les départements spécialisés des grands intégrateurs classiques comme Capgemini ou Atos Consulting.
Pour aller plus loin sur ce sujet vous pouvez aussi consulter mes autres contributions sur mon blog : Propos sur les conseils en Big Data ; Solutions Big Data, revue de quelques nouveautés ; … - http://www.decideo.fr/bruley/
Autres articles
-
LF AI & Data Foundation lance Open Platform for Enterprise AI (OPEA) pour une collaboration innovante en matière d'IA d'entreprise
-
Precisely rejoint l’Overture Maps Foundation pour enrichir son premier jeu de données cartographiques open-source au monde
-
Le Projet MLflow de Databricks rejoint la Fondation Linux
-
[Promotion] Livre Blanc Alteryx : La science des données en pratique
-
Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines