Mégadonnées : la construction d’algorithme nécessite toujours du jus de cervelle

Michel Bruley

Un algorithme de recommandation de livres par exemple, va manier des notions telles que la similarité (ouvrages sur le même thème ou d’un genre similaire), la complémentarité, la diversité et tenir compte des caractéristiques de la personne à traiter (âge, localisation, achats précédents, notations d’autres ouvrages). On remarquera que si le système manipule beaucoup de données individuelles ou non (c’est le côté mégadonnées), il est fondamentalement construit sur des classifications humaines des ouvrages et des personnes.

Pour un algorithme de prévision, il faut traditionnellement, identifier les variables et rassembler les données pertinentes par rapport au sujet, il faut aussi généralement nettoyer ces données (corriger les erreurs, colmater les trous) et assurer leur interopérabilité. Ensuite il faut affecter des pondérations, selon les analyses escomptées, toutes les données croisées dans une même base ne recouvrent pas le même intérêt, d’où la nécessité de les pondérer. Les pondérations sont réglées à partir d’échantillons de cas réels jusqu’à ce que l’algorithme soit à même de reproduire la réalité. On remarquera ici encore la main prépondérante du pilote.

Avec l’apprentissage automatique, ou machine learning, qui vise à développer la capacité des machines et des logiciels à apprendre de leurs résultats, nous entrons dans un autre monde. Les algorithmes utilisés permettent à un système d’adapter ses comportements et réponses de façon autonome, en fonction d’une base de données qui a été conçue et constituée avec un peu de jus de cervelle. La donnée brute est un mythe, elle est toujours construite, elle ne vient pas de la nature, mais du système qui la mesure.

Pour reprendre l’exemple précédent de la prévision, de vente par exemple, on parle de machine learning dans le cas où l’algorithme rectifie tout seul les pondérations des données en fonction du résultat obtenu lors du dernier cycle de vente, et rectifie sa formule pour ne pas répéter les inexactitudes repérées dans le cycle suivant. L’algorithme apprend et se corrige de façon autonome, mais il reste fondé sur le postulat que les corrélations entre les jeux de données suffisent pour prévoir les nouveaux modèles à appliquer. Or si le futur vient de loin, il n’est jamais totalement contenu dans le passé.

Bien sûr avec des algorithmes appropriés on peut optimiser les ventes d’une entreprise ou les flux des transports urbains, faire baisser la criminalité ou la pollution, mais tout dépend de la volonté, des stratégies, des politiques et des organisations mises en place, les mégadonnées dans tout cela ne sont jamais qu’une technologie à éthiquement mettre en œuvre. On cite toujours en exemple les réalisations de Google, Yahoo, …, mais le plus gros utilisateur de mégadonnées et d’algorithmes sophistiqués est quand même la NSA, dont on a pu apprécier une toute petite partie des activités, avec l’affaire des écoutes des dirigeants européens.

L’un des plus grands problèmes avec les algorithmes de mégadonnées, c’est leur coût, car contrairement à ce que l’on dit, ils sont onéreux à mettre en œuvre et donc seuls les grands organismes peuvent aujourd’hui en tirer vraiment profit. Certes on n’a pas besoin comme pour les entrepôts données traditionnels de mainframes décisionnels hors de prix, des solutions open source et des matériels lambda conviennent, mais pour gérer un gros volume, une grande variété de données, de la vélocité …, il faut mettre en œuvre beaucoup de moyens matériels, logiciels, beaucoup de spécialistes, il faut du temps, beaucoup de jus de cervelle, et in fine cela est onéreux.

Pour aller plus loin sur le sujet des solutions pour vos mégadonnées, vous pouvez utilement consulter le lien suivant : Big Data & Open Source http://www.decideo.fr/Big-Data-Open-Source_a7600.html

Autres articles

Mégadonnées : la construction d’algorithme nécessite toujours du jus de cervelle

[Promotion] Livre Blanc Alteryx : La science des données en pratique

Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines

De quelle façon trois générations de disques durs Toshiba ont aidé le plus grand laboratoire de physique du monde à conserver, chaque seconde, des centaines de téraoctets de données générées par les expériences du LHC

Big Data & Big Brother : de l’intérêt de connaître notre ADN

Livre : Big Data, le traitement streaming et temps réel des données

Encadrer l’utilisation de l’IA générative en entreprise - 18/12/2024

ChatGPT nous donne ses 5 tendances du marché de la data en 2025 - 12/12/2024

Prédictions IA pour 2025 : embrasser la collaboration entre les humains et les machines - 11/12/2024

Construisez vous-même votre DBJ (Data Bullshit Job) ! - 07/12/2024

IA, capteurs intelligents et technologies embarquées : les clés de la maintenance prédictive - 30/11/2024