Récemment, j’ai malgré moi eu un échange sur un réseau social, qui m’a amené à formaliser ma thèse : les LLMs, si développés soient-ils, avec les capacités agentiques qu’on leur connaît actuellement, ne constituent actuellement pas ce qui était initialement qualifié d’AGI.

N’aimant pas les échanges de ce genre sur les réseaux sociaux, où souvent le point n’est pas tant d’apporter des arguments solides, mais plutôt de gagner le débat par accumulation de sophismes, d’insultes, et critiques vides, et par matraquage argumentatif, j’ai néanmoins fait une entorse, et la discussion que j’ai eue a été passionnante. J’essaie ici de résumer mes arguments et réflexions, mais aussi les contre-arguments que j’ai vus et que je trouve pertinents.

Warning

Je ne me lance pas dans des explications trop complexes, et je ne compte pas inspecter en profondeur les aspects mathématiques que j’évoque.

Bien que j’en comprenne une grande partie, je ne suis pas expert du domaine de l’apprentissage profond ou des réseaux de neurones, et une partie de ce que je décris me demanderait plusieurs heures pour être étayé. Je redoute que le nombre de gens que ça intéresse soit trop faible pour justifier le travail que cela représente, et qui surtout a été mieux fait par bien d’autres en ligne.

AGI ?

Le terme « intelligence artificielle générale » n’a pas de définition consensuelle, et c’est une partie du problème. La charte d’OpenAI la définit vaguement comme des « systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles ». Google DeepMind a tenté de formaliser les choses dans Levels of AGI (Morris et al., 2023), en proposant une taxonomie à cinq niveaux de performance: Emerging, Competent, Expert, Virtuoso, Superhuman, croisés avec une dimension de généralité (narrow vs. general). Dans cette grille, les LLM actuels se situent au niveau 1, « Emerging AGI ». Aucun système n’a encore atteint le niveau 2.

Mais cette taxonomie est purement behavioriste : elle se concentre sur ce que le système fait, pas sur comment il le fait. François Chollet propose une approche radicalement différente dans On the Measure of Intelligence (2019) : l’intelligence n’est pas la compétence sur une tâche donnée mais serait plutôt l’efficacité d’acquisition de compétences sur des tâches inconnues. Dit autrement, la capacité de généralisation hors distribution. C’est cette définition qui sous-tend le benchmark ARC-AGI, sur lequel les LLM actuels peinent encore significativement.

Ici, je m’intéresse à l’AGI au sens fort. Un système qui performe bien sur un large éventail de benchmarks (ce que les LLM font déjà ou feront bientôt) ne m’intéresse pas (c’est un super outil, et je m’en sers déjà, entendons-nous). Ce qui m’intéresse, c’est une intelligence véritablement générale, capable d’apprentissage autonome, d’auto-extension conceptuelle, et de transfert robuste à des domaines jamais rencontrés. La distinction entre les deux est, à mon humble avis, au cœur de nombreux désaccords.

Les mauvais arguments

Allez, je me lance, je débunke des arguments que j’ai lus, et même certains que j’ai pu avoir à l’emporte-pièce, parce qu’avant de défendre une thèse, c’est bien de faire le ménage des approches simplistes.

« Ce n’est que du pattern matching »

L’un des arguments les plus fréquents que je lis est que, dans la mesure où les LLMs actuels sont construits de façon à prolonger un échange par prédiction itérative des mots suivants, ils ne seraient que des outils faisant du pattern-matching, peut-être sophistiqués, mais limités à cette fonction.

Bien qu’elle soit biaisée, on peut citer les travaux récents d’Anthropic sur les attribution graphs qui tendent à montrer que les modèles développent des représentations conceptuelles internes qui transcendent les langues, et ce qu’elles aient ou non été vues ensemble dans les données d’entraînement. Cela implique que, quand bien même l’essence de construction de ces outils serait du pattern-matching, il a permis d’atteindre un certain niveau d’abstraction.

De même, le travail sur Othello-GPT démontre qu’un modèle entraîné uniquement sur des séquences 1D de coups développe une représentation interne structurée du plateau 2D. Le modèle a inféré la structure générative derrière les données sans jamais voir de plateau. On peut souligner que les règles qui sont fournies au modèle décrivent implicitement une géométrie 2D et donc permettent cette abstraction, mais le fond demeure.

Dire que c’est « juste du pattern matching » revient à ignorer ce genre de résultat, pourtant novateur. La question serait donc de savoir si l’intelligence humaine fait plus que du pattern-matching sophistiqué. C’est actuellement une question de sciences cognitives qui, à ma connaissance, est ouverte. Autrement dit, « on ne sait pas ».

« Le raisonnement humain c’est pas ça »

J’ai envie de répondre « ok, alors c’est quoi » ? On ne sait pas si le raisonnement humain est fondamentalement différent du pattern matching ou juste un pattern matching biologique plus riche. C’est le cœur du problème. Les humains font des choses que les LLM ne font toujours pas bien, par exemple, des raisonnements causal robustes, de la planification à très long terme ou encore de la découverte scientifique ab initio, mais ça pourrait être une question de degré plutôt que de nature.

Je trouve à ce titre les tests ARC-AGI-3 intéressants (je sais, je débunke un peu mon propre débunkage), car ces tests sont intrinsèquement simples pour des humains, sans énoncé, sans rien, et pour l’instant même les meilleurs modèles ont des résultats catastrophiques. Cela ne change pas fondamentalement ce qui est écrit au dessus, mais cela pose une question (un peu hors sujet) sur la quantité d’énergie qu’on met vis-à-vis des résultats qu’on obtient. S’il y a bien un point sur lequel les humains ont de la marge, c’est l’énergie consommée pour produire l’intelligence qu’ils ont.

Les mauvais arguments pour l’AGI

« L’information 2D n’est pas dans les données 1D »

On m’a objecté que la représentation 2D apprise par Othello-GPT serait « un comportement émergent, car en dehors de l’enveloppe convexe des données ». En effet, la dimension du plateau n’existerait pas dans les inputs.

À mon humble avis, c’est une confusion. Comme écrit au-dessus, la spatialité en 2D est encodée dans les séquences, car les contraintes de légalité des coups encodent probablement en partie la topologie d’un plateau. Ainsi, le réseau joue avec une structure latente qui existe déjà dans la somme d’heuristiques apprises (amies statistiques, bonjour). Avec suffisamment de paramètres, un réseau de neurones est, en théorie, un approximateur universel (cf théorèmes de Cybenko et Hornik). Il peut donc en théorie approcher n’importe quelle fonction continue sur un compact de ℝᵈ. C’est donc assez attendu qu’il connaisse une structure 2D à partir de séquences 1D.

Mais l’histoire ne s’arrête pas là. Les travaux initiaux de Li et al. avaient besoin de probes non-linéaires pour décoder l’état du plateau depuis les activations internes. Cela posait problème, car l’hypothèse est devenue que c’étaient les probes plutôt que le réseau qui faisaient le travail. Neel Nanda a ensuite montré que des probes linéaires suffisaient, à condition de reformuler les labels en « mine/yours/empty » plutôt que « black/white/empty », ce qui est un résultat nettement plus convaincant.

Cependant, un travail plus récent a montré que cette représentation interne n’est probablement pas un modèle abstrait et cohérent du plateau, mais un agrégat de règles heuristiques localisées. Par exemple, un neurone spécifique encode « si A4 vient d’être joué ET B4 est occupé ET C4 est occupé, alors mettre à jour B4, C4 et D4 ». Ces heuristiques se contredisent parfois, mais leur agrégation produit des prédictions correctes dans la grande majorité des cas. Comme le résume Melanie Mitchell dans son analyse, c’est plus Ptolémée et ses épicycles qu’un vrai modèle du monde.

Ce résultat est structurellement important : un LLM avec des milliards de paramètres peut se permettre de stocker des millions d’heuristiques spécifiques au lieu de généraliser. Les humains, contraints par leur mémoire de travail et leur énergie limitées, sont forcés de former des modèles abstraits. Plus de scale ne mène pas automatiquement à plus d’abstraction. Rien n’interdit d’ailleurs d’imaginer que cela puisse même être l’inverse. (ce qui resterait puissant)

« Si un humain faisait ça, on appellerait ça du raisonnement »

Dans les échanges que j’ai eus, on m’a opposé que si un humain faisait la même chose que ce qu’on observe chez un LLM avec fonctions agentiques, on appellerait ça du raisonnement.

Cet argument a une structure circulaire. Il définit le raisonnement par le comportement observable, puis constate que le LLM reproduit ce comportement, et conclut qu’il raisonne. C’est une position philosophique qu’on appelle behaviorisme. Elle est défendable, mais selon moi elle trouve ses limites ici.

Pour illustrer : PCA aussi extrait une structure latente des données et en fait une représentation explicite. On n’appelle pas ça du raisonnement. Une réponse pourrait être « oui mais PCA c’est linéaire, c’est plus simple ». C’est tout à fait possible, auquel cas on revient au du degré par opposition à la nature. Et un débat de degré ne permet pas à mon avis de mener à l’AGI.

Par ailleurs, même en acceptant le cadre behavioriste, les LLM échouent encore sur des tâches qui devraient être triviales si l’abstraction interne était du vrai raisonnement général : le raisonnement spatial, la planification multi-étapes avec contraintes, ou les problèmes ARC-AGI simples montrent que l’abstraction apprise est fragile et spécifique au domaine.

Ma thèse : un espace de connaissances fixe

Voici ce qui, selon moi, constitue l’argument le plus solide contre la thèse AGI.

Un LLM, une fois entraîné, est une fonction fixe f : ℝᵈ → ℝᵈ. Les poids sont gelés. L’in-context learning donne l’illusion que la fonction change, on fournit des exemples et le modèle s’adapte à ceux-ci, mais mécaniquement, c’est toujours la même fonction f évaluée sur un input plus riche. C’est f(contexte + question), pas une nouvelle f.

Le réseau peut structurer ℝᵈ de façon remarquable. Ses représentations internes sont organisées sur ce qui s’apparente à des sous-variétés dont la topologie reflète des structures complexes. Mais il ne peut pas étendre son propre espace de représentation. La dimension d est fixée à la conception.

Un humain fait, à mon avis, quelque chose de structurellement différent : il invente de nouveaux concepts (nombres complexes, espaces de Hilbert, catégories) qui étendent son espace de représentation. Ma thèse est que la question portant sur l’AGI au sens fort passe de « le réseau peut-il atteindre tout point de ℝᵈ ? » à quelque chose comme « le système peut-il augmenter d lui-même ? ». Et la réponse, pour un LLM à poids gelés, semble être non. Je ne vois d’ailleurs aucun monde où cela changerait.

Pour moi, si on espère atteindre l’AGI au sens fort, il va falloir ajouter plusieurs axes aux outils déjà existants, parmi lesquels une mémoire épisodique, une capacité d’adaptation des poids en fonction des nouvelles découvertes, mais surtout une capacité à créer de nouveaux poids. Cela me semble structurellement impossible avec la théorie sur laquelle ces modèles ont été créés et entraînés.

L’analogie des EDP

Le raisonnement humain est-il modélisable ? Peut-être. Mais même si c’est le cas, je me raccroche au fait que les équations de réaction-diffusion (ma thèse reposait sur un tel modèle) nous échappent toujours analytiquement. Même si l’on construisait un modèle mathématique du raisonnement humain, une IA qui n’en serait qu’une discrétisation, aussi fine soit-elle, pourrait ne jamais le représenter exactement.

MAIS, cet argument a une limite : les discrétisations fines de Navier-Stokes suffisent largement pour concevoir des avions ou comprendre de nombreux comportements. On n’a pas besoin de la solution exacte pour être extrêmement utile. De même, un LLM pourrait s’approcher du raisonnement humain avec une précision telle que distinguer les deux serait pratiquement impossible.

Néanmoins, ces discrétisations échouent aux singularités, à savoir les points où le phénomène continu a un comportement non régulier. Si le raisonnement humain a de telles singularités, par exemple des moments de rupture créative ou de saut d’abstraction, alors c’est peut-être exactement là qu’une discrétisation, aussi fine soit-elle, rate l’essentiel. Mais encore une fois, on en sait rien.

Ma position

Je pense que dans 10 à 20 ans, on aura des modèles qui, même en tant que discrétisations, seront plus performants que les humains sur la plupart des tâches cognitives. Surhumain par accumulation de scale et de raffinements architecturaux, ça semble plausible. Ils consommeront bien plus de ressources pour ce niveau de qualité que chaque humain en consomme pour lui-même avec un niveau de qualité somme-toute très bonne.

Mais l’AGI au sens fort, à savoir un système qui s’auto-étend, reformule ses propres cadres conceptuels, et augmente sa propre dimensionnalité, à mon avis ça reste un saut qualitatif pour lequel on n’a pas de raison claire de croire que les approches actuelles suffisent.

La position la plus honnête est probablement celle-ci : on aura des systèmes pratiquement indistinguables de l’AGI bien avant d’avoir l’AGI au sens fort. Peut-être même que cette distinction n’aura plus de sens. Mais en attendant, on n’a absolument aucune certitude. Et c’est ma position : les pro sont dans l’excès, les anti sont dans l’excès. Réjouissons-nous de ce que nous avons, essayons de nous en servir intelligemment, et suivons le chemin pour les prochains sauts. En acceptant qu’ils puissent ne pas arriver.

Bonus : le piège de la productivité x10

En marge de ce débat, j’ai aussi échangé sur la promesse du « x10 de productivité grâce à l’IA ». La réponse standard est « si la qualité baisse, c’est qu’on utilise mal l’IA ». C’est un peu comme dire que si on le voulait très fort, on pourrait supprimer tous les morts au travail, ou tous les accidents de la route.

En pratique, je pense que c’est un mirage. Si on ne relit pas tout ce que les agents produisent, et, soyons honnêtes, on ne le fait pas, la probabilité d’introduire des erreurs tend vers 1. Les études disponibles convergent vers un constat : les gains de productivité réels sont bien en deçà du x10 annoncé, et s’accompagnent souvent de compromis sur la qualité.

Les chiffres sont parlants. L’essai randomisé contrôlé de METR (2025), portant sur 16 développeurs open-source expérimentés et 246 tâches, a trouvé que l’IA augmentait le temps de complétion de 19%, alors même que les développeurs eux-mêmes estimaient gagner 20%. Le RCT interne de Google (2024) mesure un gain plus modeste de ~21% sur une tâche réaliste. Une étude multi-entreprises (Microsoft, Accenture, Fortune 100) trouve ~26% avec Copilot, mais avec une distribution très inégale : 35-39% pour les juniors, 8-16% pour les seniors. Une méta-analyse de 37 études confirme des gains sur les tâches répétitives, mais aussi une délégation cognitive accrue, une réduction de la collaboration, et des effets inconsistants sur la qualité du code.

Et même quand les gains individuels sont réels, ils ne se traduisent pas au niveau système. Le rapport DORA/Faros « AI Productivity Paradox » (2025) montre que les développeurs avec IA créent ~98% de pull requests en plus, mais que le temps de review augmente de ~91%. Le goulot d’étranglement se déplace, le gain net se dissipe. C’est un peu un variant de la loi d’Amdahl appliquée aux organisations.

Le x10 des juniors (ou des seniors hypés) qui vibecodent du code sans review, c’est du throughput, pas de la qualité. C’est produire 10x plus de code quitte à produire dix fois plus de déchet.

Bien évidemment, le dire, c’est être un rabat-joie obsolète et bientôt remplacé.

Share on: TwitterFacebookEmail



Published

Category

ai

Tags

Contact