Quand le Big Data fait son cinéma


Rédigé par Xavier PERRET le 29 Septembre 2014

Les films de science-fiction aiment à imaginer ce que sera l’humanité dans les décennies à venir : ils sont parfois annonciateurs des bouleversements qui nous attendent.
Par les effets spéciaux qui fascinent notre regard et les trésors d’audace et d’in¬ventivité qu’ils déploient pour nous surprendre, ces films génèrent des souvenirs inaltérables. Nous avons tous en mémoire quelques images inoubliables de 2001 Odyssée de l’Espace, Alien, Minority Report, Blade Runner ou Star Wars.



Ces films aiment aussi nous faire rêver ou nous terrifier en combinant le meilleur et le pire, et c’est souvent dans le pire qu’ils excellent. En effet, d’un côté, ils nous laissent entrevoir un monde sublimé qui renvoie à la toute-puissance de nouveaux héros infaillibles. Mais, d’un autre, ils proposent une vision angoissante aux effets irréversibles : la destruction de notre planète, l’asservissement ou la disparition de l’humanité... Les humains doivent affronter des menaces technologiques surpuissantes qui peuvent prendre la forme d’un robot exterminateur (Terminator), d’un ordinateur brillantissime et paranoïaque (Hal dans 2001, Odyssée de l’Espace) ou d’un programme informatique associé à un déluge de données (Matrix).

Déluge de données, ce que les professionnels et les médias appellent communément les « Big Data ». Sans que nous y ayons pris garde, nos vies sont devenues de plus en plus « digitales ». Tout ce que nous lisons, écoutons, regardons, échangeons sur nos PC, nos smartphones, nos tablettes, nos TV, génère un flot ininterrompu de données.

Ces données sont devenues si volumineuses et omniprésentes, elles recèlent telle¬ment d’informations pour qui sait les analyser qu’elles intéressent au plus haut point tous les secteurs : commerce, publicité, santé, ressources humaines, trans¬port, éducation, tourisme, loisirs, astronomie, génétique …
Les Big Data regroupent un ensemble de technologies et de pratiques destinées à acquérir, stocker, traiter, analyser, partager et visualiser de gigantesques masses de données. C’est la combinaison de l’augmentation de la puissance des ordinateurs, de la baisse du coût de stockage des données et du développement des algorithmes de modélisation qui a permis l’essor et le basculement dans l’ère du Big Data.

Volume, vitesse, variété et visualisation

On explique souvent les caractéristiques du Big Data au travers de 4 « V » : volume, vitesse, variété et visualisation.

Le volume des données, et on y reviendra dans ce livre, connait une croissance exponentielle. Chaque minute, au niveau mondial nous échangeons près de 70 millions de mails. Pendant ces 60 secondes, Google enregistre plus de 2 millions de recherches, 340 000 tweets sont postés, 3 millions d’avis sont donnés par les 1,2 milliard d’utilisateurs de Facebook, et 138 000 heures de vidéo sont regardées sur YouTube. En 2010, l’ancien PDG de Google, Eric Schmidt, estimait que nous produisions tous les deux jours autant d’informations que ce qui avait été produit «entre le début de la culture humaine et 2003». En 2013, il ne fallait plus que 10 minutes pour produire la même quantité d’information, et selon IDC, ce volume de données devrait encore être multiplié par 15 d’ici 2020.

La vitesse devient également un point crucial : le monde digital est désormais « plus rapide que le temps réel » et les données n’échappent pas à cette tendance. Elles sont produites, capturées, traitées, et partagées à une vitesse fascinante. Une entreprise de services financiers, par exemple, doit gérer et analyser plusieurs millions de messages par seconde pour décider ou non de passer des ordres sur les marchés.
La variété des données, ensuite. Nos photos, vidéos, avis sur les réseaux sociaux, nos tweets, nos mails, nos recherches sur Google représentent une immense diversité d’informations. Des millions de citoyens se déplacent également avec un smartphone dans leurs poches et fournissent beaucoup d’informations sur les lieux qu’ils fréquentent, leurs habitudes et leurs comportements. De plus en plus d’objets génèrent aussi des données en temps réel : les montres, les chaussures, les bracelets, les lampadaires dans les rues, les cartes de paiement, les voitures, les immeubles … et nous n’en sommes qu’au début.

Aussi hétérogènes qu’elles soient, toutes ces données (textes, images, vidéos, lieux, centres d’intérêt, goûts, rythme cardiaque, vitesse, …), constituent chacune une part de puzzle multidimensionnel, qu’il est possible d’assembler pour mieux comprendre chacun d’entre nous et l’univers qui nous entoure.
La visualisation enfin. C’est John Tukey, professeur de statistiques à l’université de Princeton, qui donna à la visualisation de données ses lettres de noblesse en publiant notamment en 1977 avec John Wilder, un livre de référence, Exploratory data Analysis, sur les méthodes d’analyse et de présentation des données1.

À quoi serviraient toutes ces données s’il n’était possible de les présenter unique¬ment sous forme de tableaux de chiffres ?

Il est devenu indispensable de trouver des méthodes innovantes et des graphismes interactifs et ingénieux pour rendre toutes ces informations intelligibles. Car il ne s’agit pas seulement d’afficher des données quantitatives, mais de faire apparaitre des corrélations entre des phénomènes que nous n’aurions pas associés spontanément.

« La plus grande valeur d’un graphique, indique John Tukey, c’est quand il nous oblige à remarquer ce que nous ne nous serions jamais attendus à voir ». Utiliser notre regard pour réfléchir et donner du sens aux données, tel est l’enjeu majeur de la visualisation des Big Data.

Causalité et corrélation

Les Big Data risquent également de modifier considérablement notre façon d’appréhender le monde.

Jusqu’à maintenant aussi bien dans les entreprises, les institutions, que dans nos vies personnelles, nos décisions étaient fondées sur une information qui était limitée, précise, et de nature causale (en caricaturant : il pleut donc je prends mon parapluie). Avec les Big Data, les corrélations peuvent être trouvées plus rapide¬ment et de façon moins onéreuse que les liens de causalité : elles seront de plus en plus souvent privilégiées. Cela ne signifie pas que nous n’aurons plus besoin d’étude de causalités, mais fréquemment, la corrélation sera assez fiable pour prendre immédiatement une décision avant d’avoir compris les causes exactes d’une situation. Il s’agit de combiner des données non reliées entre elles, de les enrichir et de les comprendre pour mieux en déduire les corrélations qui les lient.

Ainsi, Google a-t-il eu droit en 2008 à un article dans la prestigieuse revue Nature pour son outil Google Flu Trends qui parvenait à prévenir les citoyens sur de futures épidémies de grippe avant même les autorités médicales.
Les ingénieurs et statisticiens de Google avaient analysé des dizaines de millions de requêtes et comparé leur fréquence avec les cas de grippe déclarés entre 2003 et 2006. Ils avaient sélectionné une palette de 45 mots-clés liés à la grippe (toux, fièvre, frisson, éternuement …) et modélisé leur fréquence d’utilisation sur plusieurs années.

Ce modèle a été testé avec succès lors de l.épidémie de 2007 et a permis d’identifier les zones épidémiques bien avant toutes les solutions existantes. Mais depuis, il a été mis plusieurs fois en défaut, notamment parce que de nombreuses personnes confondent «grippe» et «rhume». Cette confusion ainsi que d’autres phénomènes (cercle vicieux faisant croire aux internautes que la grippe est arrivée dans leur région alors qu’il s’agit en réalité d’une maladie plus bénigne…) ont perturbé les algorithmes du moteur de recherche. La méthode n’est donc pas encore totalement fiable, mais on devine déjà le potentiel d’une telle approche dans de nombreux domaines.

Les corrélations ne nous indiquent pas précisément pourquoi quelque chose se passe, mais elles peuvent nous prévenir du moment où cela se passe. Autre exemple souvent cité, celui de l’étude de millions de dossiers médicaux qui montre que les personnes atteintes d’une grave maladie voient leur pathologie se résorber s’ils prennent un médicament A plutôt qu’un médicament B. Bien que, pour le moment, on ne sache pas expliquer pourquoi le médicament A est plus efficace que le médicament B, le plus important est bien de prolonger la vie de ces patients.

Qu’importe la causalité, voici donc venu le temps des corrélations : « Il ne s’agit plus de connaitre le pourquoi, mais le quoi ». Il sera pourtant capital de rester vigilant et d.évoluer de façon pragmatique et humaniste pour protéger les valeurs de nos sociétés sous peine de laisser les algorithmes guider notre monde de façon totalement déshumanisée.

11 films de science-fiction pour comprendre ce qui nous arrive

Ce que nous découvrons aujourd’hui via les Big Data, le cinéma au travers de films d’anticipation ou de science-fiction nous l’avait déjà annoncé, les réalisateurs et les producteurs l’avaient déjà imaginé à travers les scénaristes et les auteurs dont ils s’inspirent. Parfois, ils nous ont fait peur inutilement, mais souvent ils ont vu juste.

Au travers de 11 films, cet ouvrage évoque des situations qui, il y a quelques années, nous paraissaient impossibles ou tellement lointaines. Il prouve, au travers de dizaines d’exemples, qu’aujourd’hui déjà, nous sommes allés au-delà de ce que l’on nous promettait.

Nous consacrons un chapitre à chacun de ces films. Nous y aborderons les thèmes clés liés à l’avènement du Big Data, les opportunités qu’il représente, les dangers qu’il laisse planer et aussi quelques conseils pour mieux maitriser cette révolution qui s’annonce.

Nous commençons avec Matrix d’Andy et Lana Wachowski (1999). Ce film nous donne à voir un monde où les machines et les données règnent en maîtres sur l’espèce humaine. L’humanité est condamnée à une vie végétative, et sa principale mission est de fournir de l’énergie à la Matrice. Pour l’affronter Morpheus, Néo et Trinity jonglent, au péril de leur vie, entre le monde réel et le monde virtuel. Comment, dans un monde submergé par un flot d’informations numériques ininterrompu, garder son libre arbitre et éviter d.être englouti ?

Dans Terminator de James Cameron (1984), Arnold Schwarzenegger, 30 ans avant qu’elles ne soient inventées, dispose déjà de « Google Glass » et a la possibilité bien avant les autres de voir toutes ces données qui nous entourent. Serons-nous, nous aussi, bientôt immergés dans un environnement mi-réel mi-virtuel et disposerons-nous à notre tour d’outils nous permettant dès que nous le voudrons d’avoir accès à la réalité augmentée ?

Truman Show de Peter Weir (1998) est annonciateur avec quelques années d’avance, d’une société dans laquelle les caméras de télésurveillance et les capteurs sont omniprésents et les citoyens suivis pas à pas, aussi bien dans leur vie réelle que sur l’ensemble des réseaux. Bienvenue dans l’Internet des objets et dans la ville 100 % connectée.

La nuit des morts vivants de Georges Romero (1968) pose la question du droit à mourir en paix, oublié des uns et des autres et évoque le devenir de nos données personnelles au-delà de la mort. Pour ne prendre qu’un seul exemple, 30 millions de personnes parmi les 1,2 milliard d’utilisateurs de Facebook seraient déjà mortes. À qui appartient leur patrimoine numérique et comment le gérer ou en disposer ?

Retour vers le futur de Robert Zemeckis (1985) nous invite à réfléchir sur ce qui se passerait si nous perturbions le passé. Serait-il possible de changer le présent ? Nombre d’applications nous permettent déjà de voyager dans le temps et d’enregistrer automatiquement notre vie pour mieux la revivre dans toutes ses dimensions.

Dans Dead Zone de David Cronenberg (1983), la vie de Johnny Smith bascule suite à un accident de la route. Le passé, le présent et le futur se confondent dans son esprit. Peut-on changer le futur par le simple fait de le prédire ? Les Big Data permettent déjà dans certains cas de prévoir une épidémie de choléra, de futurs tremblements de terre, le comportement des touristes qui viendront visiter la France ou le succès d’un film avant même qu’il ne soit sorti... Si nous savons prédire le futur, pourrons-nous changer le présent et inverser le cours du temps ?
Minority Report de Steven Spielberg (2002) pose la question de l’obsession de la prédiction. À partir de l’analyse des Big Data, des pays sécuritaires iront-ils jusqu'à arrêter de futurs criminels avant même qu’ils ne soient passés à l’acte ? Ce film pointe les dérives et les erreurs potentielles d’une société où l’on a ôté à chaque individu le principe même de libre-arbitre.

Dans La Mouche de David Cronenberg (1986) Seth Brundle, jeune biologiste surdoué met au point la « téléportation » et souhaite transporter la matière à travers l’espace. Une mouche perturbe malheureusement sa démonstration. Tout ce que nous produisons aujourd’hui est assimilable à des flux de données. Déjà sont apparues les premières imprimantes 3D qui permettent de produire des objets à distance. Serons-nous bientôt capables de décomposer chaque type d’objet en un ensemble de données, de le transmettre via tous types de réseaux et de le recomposer ensuite dans n’importe quel point du globe ?

T3 : le soulèvement des machines de Jonathan Mostow (2003) nous montre un univers dirigé par des robots invincibles, autonomes, décentralisés, sans véritable point névralgique : un monde aux antipodes de celui que nous promettait Georges Orwell dans 1984 où tout était contrôlé par le seul Big Brother ; mais dont les menaces demeurent aussi grandes. Comment éviter que des robots à l’intelligence artificielle ou des algorithmes disséminés un peu partout ne prennent le pouvoir ? Attention au soulèvement des données

Un crime dans la tête de John Frankenheimer (1962) met en scène un soldat américain soumis à un lavage de cerveau. Il revient dans son pays conditionné pour assassiner le président des États-Unis. Y a-t-il un risque de subir un lavage de cerveau par les données ? Nos données personnelles disent tout ce que nous sommes : nos points forts et nos faiblesses, ce que nous souhaitons et désirons… N’est-il pas tentant pour beaucoup d’entreprises ou d’institutions de les stocker, de les analyser, d’en comprendre tous les secrets pour ensuite nous influencer, nous manipuler et changer notre comportement ?

Enfin, nous terminerons par Requiem for a dream de Darren Aronofsky (2001) qui évoque un groupe d’amis s’inventant des paradis artificiels. Ils deviennent dépendants de ces chimères et, peu à peu, sombrent dans une spirale infernale. Sara, la mère de l’un d’eux souffre elle aussi d’une forme d’addiction : la télévision. Un film qui nous invite à réfléchir sur l’addiction de toute nature. Imaginez une semaine sans téléphone mobile, sans recherche sur Google, sans mail, ni SMS ! Pourrons-nous résister ou serons-nous nous aussi totalement dépendants des données ?

Le déluge de données, la téléportation, l’alerte sur des crimes qui n’ont pas encore été commis, la dépendance aux données, le voyage dans le temps, la résurgence du passé, l’affichage et l’utilisation d’images en réalité augmentée … Ces films ont en commun d’avoir esquissé ce qui est devenu réalité.
Ce livre vous offre des clés pour comprendre ce nouveau monde, tirer profit de ces nouvelles opportunités et vous donne quelques conseils pour protéger votre « patrimoine » numérique.

Pour commandez le livre sur Amazon, cliquez ici



Dans la même rubrique :