Mégadonnées : la construction d’algorithme nécessite toujours du jus de cervelle


Rédigé par le 15 Juin 2015

À l’origine, un algorithme désignait une suite de calculs pour effectuer une opération mathématique complexe. Aujourd’hui, on s’en sert pour caractériser un processus, c’est-à-dire un enchaînement de tâches, pour obtenir un résultat. Un algorithme se définit donc par sa finalité. Ainsi sur internet, nous utilisons ou nous subissons de nombreux algorithmes : de recherche, de recommandation, de suggestion, de pistage …



Michel Bruley
Un algorithme de recommandation de livres par exemple, va manier des notions telles que la similarité (ouvrages sur le même thème ou d’un genre similaire), la complémentarité, la diversité et tenir compte des caractéristiques de la personne à traiter (âge, localisation, achats précédents, notations d’autres ouvrages). On remarquera que si le système manipule beaucoup de données individuelles ou non (c’est le côté mégadonnées), il est fondamentalement construit sur des classifications humaines des ouvrages et des personnes.

Pour un algorithme de prévision, il faut traditionnellement, identifier les variables et rassembler les données pertinentes par rapport au sujet, il faut aussi généralement nettoyer ces données (corriger les erreurs, colmater les trous) et assurer leur interopérabilité. Ensuite il faut affecter des pondérations, selon les analyses escomptées, toutes les données croisées dans une même base ne recouvrent pas le même intérêt, d’où la nécessité de les pondérer. Les pondérations sont réglées à partir d’échantillons de cas réels jusqu’à ce que l’algorithme soit à même de reproduire la réalité. On remarquera ici encore la main prépondérante du pilote.

Avec l’apprentissage automatique, ou machine learning, qui vise à développer la capacité des machines et des logiciels à apprendre de leurs résultats, nous entrons dans un autre monde. Les algorithmes utilisés permettent à un système d’adapter ses comportements et réponses de façon autonome, en fonction d’une base de données qui a été conçue et constituée avec un peu de jus de cervelle. La donnée brute est un mythe, elle est toujours construite, elle ne vient pas de la nature, mais du système qui la mesure.

Pour reprendre l’exemple précédent de la prévision, de vente par exemple, on parle de machine learning dans le cas où l’algorithme rectifie tout seul les pondérations des données en fonction du résultat obtenu lors du dernier cycle de vente, et rectifie sa formule pour ne pas répéter les inexactitudes repérées dans le cycle suivant. L’algorithme apprend et se corrige de façon autonome, mais il reste fondé sur le postulat que les corrélations entre les jeux de données suffisent pour prévoir les nouveaux modèles à appliquer. Or si le futur vient de loin, il n’est jamais totalement contenu dans le passé.

Bien sûr avec des algorithmes appropriés on peut optimiser les ventes d’une entreprise ou les flux des transports urbains, faire baisser la criminalité ou la pollution, mais tout dépend de la volonté, des stratégies, des politiques et des organisations mises en place, les mégadonnées dans tout cela ne sont jamais qu’une technologie à éthiquement mettre en œuvre. On cite toujours en exemple les réalisations de Google, Yahoo, …, mais le plus gros utilisateur de mégadonnées et d’algorithmes sophistiqués est quand même la NSA, dont on a pu apprécier une toute petite partie des activités, avec l’affaire des écoutes des dirigeants européens.

L’un des plus grands problèmes avec les algorithmes de mégadonnées, c’est leur coût, car contrairement à ce que l’on dit, ils sont onéreux à mettre en œuvre et donc seuls les grands organismes peuvent aujourd’hui en tirer vraiment profit. Certes on n’a pas besoin comme pour les entrepôts données traditionnels de mainframes décisionnels hors de prix, des solutions open source et des matériels lambda conviennent, mais pour gérer un gros volume, une grande variété de données, de la vélocité …, il faut mettre en œuvre beaucoup de moyens matériels, logiciels, beaucoup de spécialistes, il faut du temps, beaucoup de jus de cervelle, et in fine cela est onéreux.

Pour aller plus loin sur le sujet des solutions pour vos mégadonnées, vous pouvez utilement consulter le lien suivant : Big Data & Open Source http://www.decideo.fr/Big-Data-Open-Source_a7600.html



Dans la même rubrique :