L’IA peut-elle tomber à court de carburant ou tuer le web ?

-

L’intelligence artificielle se nourrit de la connaissance humaine pour nous la restituer à moindre effort et de manière directement actionnable pour notre plus grand plaisir. Mais que se passerait il si cette connaissance venait à se tarir.

Il y a une chose que l’intelligence artificielle et l’intelligence humaine ont en commun : elles ont besoin de connaissance pour travailler et s’entrainer. Plus elle apprend plus elle a matière à travailler et plus elle travaille plus elle progresse dans la limite de ses capacités.

En ce sens elle n’a pas la science infuse. Si on prend l’exemple de l’IA générative grand public qui est le gros sujet du moment elle dévore tout ce qu’elle trouve sur le web et ensuite applique un modèle probabiliste pour répondre à nos demandes. En gros et en fonction de ce qu’elle a compris des contenus qu’elle a avalé elle vous restituera ce qui va le plus probablement correspondre à votre demande.

L’IA a besoin de savoirs en quantité et en qualité

Le probablement a toute son importance. Si on lui soumet des contenus erronés ou biaisés elle peut vous faire une réponse totalement fausse sur le fond mais qui lui semblera la plus probable possible.

Si je sais peu de choses ou que je l’ai appris de sources fausses j’aurai beau être convaincu de ce que dis ça n’en sera pas plus vrai ou pertinent pour autant.

Tout vient du corpus de connaissance utilisé pour l’entrainer et, dans le cas dont nous parlons, des contenus disponibles sur le web.

C’est une excellente nouvelle car le web est une source infinie de contenus sans cesse mis à jours, améliorés ou renouvelés, et elle est en cela aidée par une vague de fonds qui date de plus de 20 ans : le Web 2.0 et le User Generated Content (UGC).

Si cela peut sembler une époque préhistorique à certains il fut un temps où seuls les médias et les entreprises occupaient (mal) le web à quelques forums et sites personnels près. Ca n’est qu’à partir du milieu des années 2000 que blogs, wikis puis réseaux sociaux ont donné à chacun le droit de prendre la parole sur le web, pour le meilleur comme pour le pire.

Cela peut sembler futile mais cela va mieux en le disant : sans des technologies qui ont permis à chacun de publier facilement en ligne et que d’ailleurs médias et entreprises se sont appropriés et sans la vague de l’UGC les IA, aussi puissantes soient elles, seraient aujourd’hui comme des étudiants se rendant pour apprendre dans une bibliothèque aux étagères quasi vides.

Peu importe l’histoire après tout puis qu’on a une quantité de matière infinie pour éduquer les IA.

Ce modèle vertueux peut il être mis à mal ?

Les IA bientôt à cours de données ?

Avant de parler de la qualité des données parlons de la quantité.

L’IA n’avale pas les données, elle les dévore avec gloutonnerie à une vitesse qu’on ne peut imaginer. Bonne nouvelle pour son entrainement ?

Oui tant qu’elle a assez à manger, non quand les réserves se vident.

Selon une étude de l’université de Cornell, les IA pourraient tomber en panne de données humaines accessibles entre 2026 et 2032 (L’IA sera-t-elle à court de données publiques dans les années à venir ?).

Pourquoi ? Non seulement elle consomme les données plus vite qu’on ne les produit mais également, comme on va le voir, parce que le risque de plus en plus de sources de savoir et d’information vont vouloir rendre celui-ci inaccessible aux IA.

Pourquoi soustraire le savoir à l’IA ?

J’utilise à dessein le terme de savoir à celui de contenu. J’ai toujours trouvé que le second dégrade la valeur du premier mais cela représente bien la situation actuelle voire donne un certain éclairage sur la société actuelle.

Pour celui qui publie du savoir, une information de valeur, son « contenu » a une valeur en soi, est le résultat d’un apprentissage, d’une expérience, d’un processus intellectuel qu’il décide de diffuser gratuitement ou de manière payante (accès payant ou publicité).

Pour d’autres c’est une matière à exploiter pour créer de la valeur en faisant la faisant payer à une personne n’ayant pas le savoir ou pas le temps de le mobiliser.

Le propre du contenu est d’être contenu sur une plateforme accessible, peu importe sa valeur, celui du savoir est d’enrichir le lecteur.

Car le contenu sans valeur existe : tous ces sites qui font tout pour capter votre attention sans rien vous apprendre avec un titre accrocheur pour vous exposer à une tonne de publicités.

Et bien ceux qui pensent valeur vont avoir tendance à soustraire leurs publications à l’IA.

IA vs. médias

Au premier rang d’entre eux on va trouver les médias qui font payer leur production de deux manières : publicité ou abonnement voire les deux en fonction de la valeur qu’ils attribuent à une publication donnée.

Passons outre les contenus accessibles sur abonnement qui sont pour l’instant à l’abris pour parler de ceux financés par la publicité.

Que l’IA soit utilisée comme substitut à un moteur de recherche pour avoir une réponse à une question simple ou pour générer du contenu le résultat est le même : l’utilisateur final n’ira pas sur les sites en question et il en découlera une baisse d’audience et une baisse de revenus publicitaires. Pire, à long terme, une baisse de notoriété.

Mais le même raisonnement s’applique à toutes les entreprises qui publient des études, outil marketing qui s’il enrichit le savoir et la réflexion de leur audience ont avant tout pour but de démontrer leur savoir faire, se faire connaitre et établir leur notoriété.

Si au lieu de prendre la peine de chercher et lire une étude on demande à une IA une note sur le sujet, on obtient le résultat final attendu sans se préoccuper de son origine on tue le marketing de ces entreprises.

Et puis il y a les « bénévoles du web », blogueurs experts et assimilés qui ne tirent aucun revenu de leur travail mais le font pour la beauté du geste ou presque. Leur audience est un peu leur récompense et leur notoriété un actif qu’ils monétiseront indirectement sur le marché du travail.

Même punition que pour les autres : on profitera de leur travail sans leur donner la moindre reconnaissance.

Les médias ont un pouvoir de négociation et certains pourront pour un temps forcer les éditeurs d’IA payer pour utiliser leurs contenus même si ces derniers ne l’entendent pas du tout ce cette oreille et finiront certainement par passer en force même si les Etats essayent de légiférer (Journalisme & IA : La guerre est déclarée !)

Quant aux « bénévoles » ils vont peut être tout simplement cesser de publier faute d’audience ou leur ajouteront à leurs publications une balise interdisant l’indexation en espérant qu’elle soit respectée.

IA vs. fake news

Un autre danger auquel fait face l’IA est la prolifération des fake news. Comme le veut le fameux adage « shit i shit out », si l’IA est entrainée à partir d’informations fausses ou même si de telles informations viennent simplement polluer un corpus fiable elle va nécessairement perdre en pertinence.

Les risques de la raréfaction du savoir disponible

La stagnation voire, pire, la raréfaction du savoir disponible ou, pire encore, sa non actualisation aurait une une conséquence aussi inévitable que dramatique : la perte de pertinence de l’IA. Idem en cas de corpus de mauvaise qualité ou pollué par des fake news.

Souvenons nous que l’IA générative fonctionne selon un modèle probabiliste et plus elle d’information pour recouper son travail plus elle sera pertinence. A l’inverse, faute d’information, elle risque de faire des raccourcis rapides et pas pertinents.

Et il n’en faut pas beaucoup pour basculer dans l’absurde comme le montre ce qu’à découvert dernièrement David Fayon (Quand l’IA générative déraille ou les risques de « soleil vert des données »). Une IA générative le désignait comme auteur d’un livre qu’il n’avait pas écrit et qui d’ailleurs n’existait pas.

Voir ce genre de choses se produire aujourd’hui sur un sujet sans grande importance nous donne une idée de ce qui peut se passer demain si par malheur, comme le dit David, les IA devaient un jour fonctionner en vase clos.

Transposition sur les IA d’entreprise

L’IA d’entreprise est davantage mon sujet de prédilection que l’IA grand public et je ne peux donc m’empêcher de me demander s’il y a des leçons transposables à tirer de tout cela.

Par IA d’entreprise j’entends IA orientée métier, utilisant les données d’applications métiers et des contenus internes.

A priori, s’agissant d’un écosystème fermé, l’entreprise est à l’abris des fake news mais pas des problèmes de qualité des données qui sont un enjeu majeur.

Elle n’est tout de fois pas à l’abris de problèmes de qualité et cela pour deux raisons totalement antinomiques.

La première est qu’il n’est pas inhabituel, et pas seulement dans les grandes organisations, que différentes versions d’un même document existent à différents endroits de l’intranet. La prolifération des drives personnels n’aide pas non plus.

Et si on s’imagine que dans les applications métier de type CRM ou ERP toutes les données sont propres et à jour on commet une grossière erreur.

La seconde est exactement l’inverse dans les entreprises qui ont mis en place une gouvernance stricte de l’information. Dans ce cas les temps de production et de validation peuvent être longs, l’information mettra donc du temps à être disponible et dans le cas d’une actualisation l’IA n’aura pas la dernière version (AI moves fast, content moves slow).

Dernier point à avoir en tête : la faible quantité de données disponibles. Alors bien sûr cela dépend de la taille de l’entreprise et du cas usage, mais le volume de données internes utilisable pour entrainer l’IA peut se révéler très faible.

Conclusion

La baisse de la quantité et de la qualité des données publiques disponibles est un réel danger potentiel pour les IA grand public.

Les IA d’entreprises quant à elles font face aux mêmes problèmes mais pour des raisons différentes liées à leur taille et la gouvernance de l’information qu’elles ont pu mettre en oeuvre.

Crédit image : Shutterstock.

Bertrand DUPERRIN
Bertrand DUPERRINhttps://www.duperrin.com
Directeur People & Operations / Ex Directeur Consulting / Au croisement de l'humain, de la technologie et du business / Conférencier / Voyageur compulsif.
You don’t speak french ? No matter ! The english version of this blog is one click away.
1,743FansJ'aime
11,559SuiveursSuivre
26AbonnésS'abonner

Récent