Pour bien comprendre l’IA, il faut comprendre le principe de base de l’apprentissage machine. On apprend à la machine, on la dresse. Au risque de paraître à contre-courant, l’IA n’est pas “intelligente”, c’est du dressage. Comme je l’explique dans mes formations, l’IA fonctionne un peu comme votre chien. Il est “intelligent” car il a compris que, en échange d’une friandise ou d’une caresse, il vous ramène la balle que vous avez lancée. Si vous appelez cela de l’intelligence, d’accord; moi, je préfère appeler cela du dressage.
Quoiqu’il en soit, l’IA fonctionne sur le même principe. C’est ce que l’on appelle des données d’entrainement. Vous montrez à l’algorithme ce qui s’est passé. Il en déduit ce qui va se passer.
Première contrainte, vous devez avoir des données sur ce qui s’est passé dans le passé. Sans données d’entrainement, aucune prédiction n’est possible. Et ne me parlez pas des générateurs de données d’entrainement, qui représente sans doute le pire des biais que vous pouvez enseigner à vos systèmes d’IA. Pas de données, pas de prévisions !
Dans le cas des IA génératives, comme ChatGPT, dont on parle beaucoup depuis six mois, ou de ses équivalents graphiques comme MidJourney; l’entrainement est réalisé à partir de contenus récupérés sur Internet ou dans différentes bases de données. Si vous demandez à MidJourney de dessiner un ordinateur à la manière de Picasso, il copiera l’ensemble des caractéristiques des tableaux de Picasso qui ont servi de base à son apprentissage et produira un nouveau dessin. Ce nouveau dessin sera ensuite intégré dans sa base de connaissance et servira à son tour de donnée d’entrainement, etc.
Et c’est là qu’à moyen terme, l’apprentissage machine creuse sa propre tombe. L’IA produit du contenu à partir du contenu existant. Dans le cas d’un tableau style Picasso, ou d’un texte style Victor Hugo, ce n’est bien sur ni du Picasso, ni du Victor Hugo, mais une copie. Cette même copie servira par la suite à alimenter les prochaines phases d’apprentissage.
Un article sur le sujet a été récemment publié sur Arxiv : “ The Curse of Recursion: Training on Generated Data Makes Models Forget ” - La malédiction de la récursivité : L'entraînement sur des données générées fait oublier les modèles. Cet article explique comment, à force de créer des contenus basés sur les contenus eux-mêmes générés par une IA générative, le système perd peu à peu de sa substance. A force de copier la copie de la copie de la copie, le contenu généré devient le plus petit dénominateur commun du tableau de Picasso ou du texte de Victor Hugo.
En résumé, pour paraitre intelligente, une IA générative a besoin de contenu humain original pour améliorer en permanence la copie qu’elle génère. Se posent alors deux questions.
Premièrement, dans un monde où plus personne ne voudrait travailler, et où tout le monde utiliserait l’IA, comment continuerait-on à progresser ? La réponse est simple, nous ne progresserons plus. Plus de découverte scientifique, plus d’imagination, juste des copies de copies de copies. Imaginez que tout le monde confie la rédaction de ses pages web ou de ses fiches produits à une IA générative… ce n’est plus la terre qui serait plate, mais bien l’ensemble des sites Web ainsi conçus.
Deuxièmement, les humains créateurs de contenus accepteront-ils que leurs créations soient pillées par les IA génératives sans leur accord ? J’ai déjà démontré que les IA génératives ne respectent ni les droits d’auteur ni le copyright, et ne mentionnent aucune de leurs sources. Et je plaide d’ailleurs pour la mise en place d’une balise permettant de publier du contenu sur Internet, et d’indiquer que l’on refuse son indexation par les IA génératives.
Donc si ces IA ne disposent plus de contenu original et humain pour apprendre, elle perdront peu à peu de leur valeur. C’est ce qu’explique l’article que je citais il y a quelques instants.
N’ayez donc pas peur de ces IA ! Utilisez les pour ce qu’elles savent faire : ramener la baballe. Et donnez leur une caresse. Pour l’imagination, la découverte, la création, l’originalité, faites confiance à l’Être humain. Son processus de création est cependant le même que l’IA. Quand l’Homme apprend, il lit, il regarde, il s’inspire. La différence vient après ! Il ne se contente pas de plagier, il veut ajouter sa propre dimension, sa propre recherche. Et c’est cela qui fait sa valeur !
A lire également sur ce sujet :
https://www.analyticsinsight.net/will-generative-models-be-unable-to-progress-in-the-future/
https://www.newscientist.com/article/2378706-ais-will-become-useless-if-they-keep-learning-from-other-ais/
https://www.gartner.com/en/newsroom/press-releases/2022-06-22-is-synthetic-data-the-future-of-ai
Si vous voulez vous aussi participer à une émission, envoyez moi un email à philippe.nieuwbourg@decideo.com.
Quoiqu’il en soit, l’IA fonctionne sur le même principe. C’est ce que l’on appelle des données d’entrainement. Vous montrez à l’algorithme ce qui s’est passé. Il en déduit ce qui va se passer.
Première contrainte, vous devez avoir des données sur ce qui s’est passé dans le passé. Sans données d’entrainement, aucune prédiction n’est possible. Et ne me parlez pas des générateurs de données d’entrainement, qui représente sans doute le pire des biais que vous pouvez enseigner à vos systèmes d’IA. Pas de données, pas de prévisions !
Dans le cas des IA génératives, comme ChatGPT, dont on parle beaucoup depuis six mois, ou de ses équivalents graphiques comme MidJourney; l’entrainement est réalisé à partir de contenus récupérés sur Internet ou dans différentes bases de données. Si vous demandez à MidJourney de dessiner un ordinateur à la manière de Picasso, il copiera l’ensemble des caractéristiques des tableaux de Picasso qui ont servi de base à son apprentissage et produira un nouveau dessin. Ce nouveau dessin sera ensuite intégré dans sa base de connaissance et servira à son tour de donnée d’entrainement, etc.
Et c’est là qu’à moyen terme, l’apprentissage machine creuse sa propre tombe. L’IA produit du contenu à partir du contenu existant. Dans le cas d’un tableau style Picasso, ou d’un texte style Victor Hugo, ce n’est bien sur ni du Picasso, ni du Victor Hugo, mais une copie. Cette même copie servira par la suite à alimenter les prochaines phases d’apprentissage.
Un article sur le sujet a été récemment publié sur Arxiv : “ The Curse of Recursion: Training on Generated Data Makes Models Forget ” - La malédiction de la récursivité : L'entraînement sur des données générées fait oublier les modèles. Cet article explique comment, à force de créer des contenus basés sur les contenus eux-mêmes générés par une IA générative, le système perd peu à peu de sa substance. A force de copier la copie de la copie de la copie, le contenu généré devient le plus petit dénominateur commun du tableau de Picasso ou du texte de Victor Hugo.
En résumé, pour paraitre intelligente, une IA générative a besoin de contenu humain original pour améliorer en permanence la copie qu’elle génère. Se posent alors deux questions.
Premièrement, dans un monde où plus personne ne voudrait travailler, et où tout le monde utiliserait l’IA, comment continuerait-on à progresser ? La réponse est simple, nous ne progresserons plus. Plus de découverte scientifique, plus d’imagination, juste des copies de copies de copies. Imaginez que tout le monde confie la rédaction de ses pages web ou de ses fiches produits à une IA générative… ce n’est plus la terre qui serait plate, mais bien l’ensemble des sites Web ainsi conçus.
Deuxièmement, les humains créateurs de contenus accepteront-ils que leurs créations soient pillées par les IA génératives sans leur accord ? J’ai déjà démontré que les IA génératives ne respectent ni les droits d’auteur ni le copyright, et ne mentionnent aucune de leurs sources. Et je plaide d’ailleurs pour la mise en place d’une balise permettant de publier du contenu sur Internet, et d’indiquer que l’on refuse son indexation par les IA génératives.
Donc si ces IA ne disposent plus de contenu original et humain pour apprendre, elle perdront peu à peu de leur valeur. C’est ce qu’explique l’article que je citais il y a quelques instants.
N’ayez donc pas peur de ces IA ! Utilisez les pour ce qu’elles savent faire : ramener la baballe. Et donnez leur une caresse. Pour l’imagination, la découverte, la création, l’originalité, faites confiance à l’Être humain. Son processus de création est cependant le même que l’IA. Quand l’Homme apprend, il lit, il regarde, il s’inspire. La différence vient après ! Il ne se contente pas de plagier, il veut ajouter sa propre dimension, sa propre recherche. Et c’est cela qui fait sa valeur !
A lire également sur ce sujet :
https://www.analyticsinsight.net/will-generative-models-be-unable-to-progress-in-the-future/
https://www.newscientist.com/article/2378706-ais-will-become-useless-if-they-keep-learning-from-other-ais/
https://www.gartner.com/en/newsroom/press-releases/2022-06-22-is-synthetic-data-the-future-of-ai
Si vous voulez vous aussi participer à une émission, envoyez moi un email à philippe.nieuwbourg@decideo.com.
Autres articles
-
ChatGPT nous donne ses 5 tendances du marché de la data en 2025
-
Podcast : Discussion avec Jean-Georges Perrin, le Pape du Data Mesh et des Data Contracts
-
Podcast : Parlons de cartographie avec David Bougearel de Cartographit
-
Podcast : IA ? Et si l'on parlait français ?
-
Podcast : Gagner aux JO, est-ce une question de data ?