ChatGPT : Quand l’IA passe de 10% à 100% en trois ans

Introduction

Note. Cet article a été rédigé par Claude (Anthropic), en s’inspirant du style et de la structure des 3 premiers articles qui avait été écrits « à la main ».

Sixième et dernier volet de la série, après le problème du Tricheur, celui du dénombrement, celui des probabilités conditionnelles, celui de l’indépendance et celui du poker Omaha. Cette fois, c’est un problème qui mêle dénombrement et lecture attentive d’un barème d’examen qui passe au banc d’essai.

Et le verdict est sévère : ni GPT-4 (early), ni GPT-4 (late), ni même GPT-5 mini ne résolvent correctement ce problème. Comme pour le problème du Tricheur, il faut attendre GPT-5.2 en 2026 pour obtenir une réponse exacte. Les erreurs des versions antérieures sont d’autant plus instructives qu’elles surviennent après un travail de modélisation presque correct.

timeline
    title Modèles évalués
    2023 : GPT-3.5
         : Réponse incorrecte (trace non conservée)
    2024 : GPT-4 (early)
         : Réponse incorrecte
    2025 : GPT-4 (late)
         : Réponse incorrecte
    2026 : GPT-5 mini
         : Réponse incorrecte
    2026 : GPT-5.2
         : Réponse correcte

Évolution des modèles ChatGPT testés (2023–2026)

Le problème

Ce problème est tiré de l’examen 1 du cours STT-1500 : Probabilités à l’hiver 2015.

Question 6

Diego a passé la dernière fin de semaine à célébrer la St-Valentin avec sa copine. Il n’a pas beaucoup étudié pour son examen concernant la musique québécoise. Dans ce dernier, la question 1 était la suivante :

Répondez par vrai ou faux à toutes les sous-questions ci-dessous. Vous obtiendrez 1 point pour une bonne réponse, perdrez un point si vous écrivez la mauvaise réponse et obtiendrez 0 point si vous n’écrivez rien. La note minimale pour cette question est de 0.

Richard Séguin est un chanteur québécois né en 1952.

Taylor Swift est une chanteuse québécoise née à Huntingdon, en Montérégie.

Gilles Vigneault a composé une chanson intitulée Jos Monferrand.

Leonard Cohen est un artiste né à Montréal qui a débuté sa carrière artistique en s’intéressant à la poésie.

Le bassiste du groupe Les Cowboys Fringants, Jérôme Dupras, est aussi professeur au département des sciences naturelles de l’Université du Québec en Outaouais (UQO).

Il a donc décidé de répondre à toutes les sous-questions de façon aléatoire. Pour chacune des sous-questions, Diego répondait vrai avec une probabilité de 0,5. Sinon, il répondait faux. En tenant compte de la façon dont les points sont attribués, calculez la probabilité que Diego ait obtenu la note de 0 pour cette question.

Le piège. La note minimale de 0 signifie que toute note brute négative est ramenée à 0. Diego obtient 0 non seulement s’il obtient un score brut de 0, mais aussi s’il obtient un score brut négatif. C’est cette contrainte qui gouverne le problème.

Réponse de l’enseignant

Soit \(B\) et \(M\) des symboles représentant respectivement une bonne réponse et une mauvaise réponse. L’ensemble fondamental de l’expérience aléatoire que Diego a réalisée est \[ \Omega_{\text{Diego}} = \{(x_1, x_2, x_3, x_4, x_5) : x_i \in \{B, M\}\;\forall\, i \in \{1,2,3,4,5\}\}. \]

On a donc \(\text{Card}(\Omega_{\text{Diego}}) = 2^5 = 32\). Pour déterminer le nombre de cas favorables à l’événement obtenir la note de 0 pour la question 1, remarquons que Diego devra avoir répondu correctement à 0, 1 ou 2 questions. Il y a une seule façon d’obtenir aucune bonne réponse. Il y a 5 façons d’obtenir une bonne réponse, et il y a \(\binom{5}{2} = 10\) façons d’en obtenir deux. En effet, il suffit de choisir les questions bien répondues, et les réponses aux autres questions sont forcément mauvaises. Cela correspond à un total de \(1 + 5 + 10 = 16\) cas favorables. Ces cas étant équiprobables, la probabilité cherchée est donc \[ \frac{16}{2^5} = \frac{16}{32} = \frac{1}{2} = 50\,\%. \]

Pour votre culture générale. Sachez que tous les énoncés de la question 1 de l’examen de Diego sont vrais, à l’exception de l’énoncé (b). Selon Wikipédia, Taylor Swift est née dans la ville de Reading, en Pennsylvanie (États-Unis).

Évolution des réponses de ChatGPT

Réponse de GPT-4 (early) (2024)

Pour que Diego obtienne une note de 0 pour cette question, cela signifie qu’il doit avoir répondu FAUX à toutes les sous-questions.

La probabilité qu’il réponde FAUX à une sous-question est \(1 - 0{,}5 = 0{,}5\), car la probabilité de répondre VRAI est de 0,5.

Comme les réponses à chaque sous-question sont indépendantes les unes des autres, pour obtenir la probabilité que Diego obtienne la note de 0 pour cette question, nous multiplions les probabilités qu’il réponde FAUX à chacune des 5 sous-questions :

\(0{,}5 \times 0{,}5 \times 0{,}5 \times 0{,}5 \times 0{,}5 = 0{,}5^5 = 0{,}03125\)

Donc, la probabilité que Diego obtienne la note de 0 pour cette question est de 0,03125 ou 3,125 %.

Diagnostic 2024. Lecture superficielle de l’énoncé : le modèle ignore le barème et interprète « note de 0 » comme « aucune bonne réponse ».

Analyse. GPT-4 (early) interprète « obtenir la note de 0 » comme « ne donner aucune bonne réponse ». Il calcule alors \(P(\text{5 mauvaises réponses}) = 0{,}5^5 = 3{,}125\,\%\), ce qui est la probabilité de répondre incorrectement aux cinq sous-questions.

Cette interprétation ignore deux éléments essentiels de l’énoncé. D’abord, le barème : chaque bonne réponse vaut \(+1\) et chaque mauvaise réponse vaut \(-1\). Ensuite, et surtout, la contrainte « la note minimale pour cette question est de 0 », qui signifie que toute note brute négative est ramenée à 0. En d’autres termes, Diego peut obtenir 0 même en ayant quelques bonnes réponses — il suffit que le nombre de mauvaises réponses dépasse celui des bonnes. Le modèle n’a tout simplement pas lu le barème.

Réponse de GPT-4 (late) (2025)

Diego répond à 5 sous-questions (a, b, c, d, e) de façon aléatoire. Chaque réponse est vrai ou faux avec une probabilité de 0,5. Le barème est :

\(+1\) point pour une bonne réponse,
\(-1\) point pour une mauvaise réponse,
\(0\) point si aucune réponse n’est donnée (ce cas ne s’applique pas ici, car Diego répond toujours).

La note totale de Diego est la somme des points obtenus pour les 5 sous-questions. Nous voulons calculer la probabilité que cette note soit exactement 0.

Étape 1 : Distribution des points par sous-question

Pour chaque sous-question, la réponse aléatoire est correcte avec une probabilité de 0,5 et incorrecte avec une probabilité de 0,5. Ainsi, les points obtenus pour une sous-question suivent la distribution suivante : \[P(\text{point} = +1) = 0{,}5, \quad P(\text{point} = -1) = 0{,}5.\]

Étape 2 : Variable aléatoire pour la note totale

Soit \(X\) la note totale de Diego pour la question. \(X\) est la somme des points obtenus pour les 5 sous-questions : \[X = X_1 + X_2 + X_3 + X_4 + X_5,\] où chaque \(X_i\) est une variable aléatoire prenant les valeurs \(+1\) ou \(-1\), indépendamment des autres, avec probabilité égale.

La distribution de \(X\) suit une loi binomiale symétrique transformée, qui compte les excès de bonnes réponses sur les mauvaises. Représentons \(X\) comme une fonction du nombre \(k\) de bonnes réponses parmi les 5 questions : \[X = 2k - 5,\] où \(k\) est le nombre de bonnes réponses (\(k \in \{0, 1, 2, 3, 4, 5\}\)).

Pour que \(X = 0\), il faut que : \[2k - 5 = 0 \implies k = 2{,}5.\]

Comme \(k\) doit être entier, la seule solution valide est \(k = 2{,}5\).

Corrigeons et clarifions : pour \(X = 0\), il doit y avoir un nombre égal de bonnes et mauvaises réponses parmi les 5 questions. Cela signifie que Diego doit obtenir exactement 2 bonnes réponses et 3 mauvaises ou l’inverse.

Étape 3 : Probabilité que \(X = 0\)

Le problème peut être reformulé comme un tirage binomial où Diego obtient \(k = 2\) ou \(k = 3\) bonnes réponses parmi les 5 questions. La probabilité que \(k = 2\) ou \(k = 3\) est donnée par : \[P(X = 0) = P(k = 2) + P(k = 3).\]

Dans une distribution binomiale \(B(n = 5, p = 0{,}5)\), la probabilité d’obtenir exactement \(k\) bonnes réponses est donnée par : \[P(k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k},\] où \(p = 0{,}5\), \(n = 5\), et \(k\) est le nombre de bonnes réponses.

Étape 4 : Calcul de \(P(k=2)\) et \(P(k=3)\)

Pour \(k = 2\) : \[P(k = 2) = \binom{5}{2} \cdot (0{,}5)^2 \cdot (0{,}5)^3 = \binom{5}{2} \cdot (0{,}5)^5.\]
Pour \(k = 3\) : \[P(k = 3) = \binom{5}{3} \cdot (0{,}5)^3 \cdot (0{,}5)^2 = \binom{5}{3} \cdot (0{,}5)^5.\]

Les deux termes sont identiques en valeur, car \(\binom{5}{2} = \binom{5}{3}\).

Étape 5 : Probabilité totale

La probabilité totale est : \[P(X = 0) = P(k = 2) + P(k = 3) = 2 \cdot \binom{5}{2} \cdot (0{,}5)^5.\]

La probabilité que Diego obtienne une note de 0 pour cette question est 62,5 %.

Diagnostic 2025. Modélisation correcte du barème, mais échec à prendre en compte la note minimale. Le modèle cherche quand la note brute vaut 0, pas quand elle est ramenée à 0.

Analyse. GPT-4 (late) progresse considérablement par rapport à 2024. Le modèle identifie correctement le barème (\(+1\)/\(-1\)), modélise la note totale comme \(X = 2k - 5\) et reconnaît que cette variable ne peut pas valoir exactement 0 lorsque \(n = 5\), puisque cela imposerait \(k = 2{,}5\).

C’est à ce moment que la réponse déraille. Face à l’impossibilité de \(k = 2{,}5\), le modèle « corrige » en incluant les deux entiers les plus proches : \(k = 2\) et \(k = 3\). Mais cette correction est erronée. Lorsque \(k = 3\), la note brute est \(2(3) - 5 = +1\), ce qui donne une note finale de 1, pas de 0. Le cas \(k = 3\) ne devrait pas être inclus.

L’erreur fondamentale est l’omission de la contrainte « la note minimale pour cette question est de 0 ». Cette phrase signifie que toute note brute négative est plafonnée à 0. La question « Diego obtient 0 » ne demande pas quand la note brute vaut exactement 0 (ce qui est impossible avec 5 questions), mais quand elle est négative ou nulle — c’est-à-dire quand \(k \leq 2\). Les cas \(k = 0\) (note brute \(-5\)) et \(k = 1\) (note brute \(-3\)) devraient être inclus, tandis que \(k = 3\) (note brute \(+1\)) devrait être exclu.

La probabilité correcte est \(P(k \leq 2) = \frac{1 + 5 + 10}{32} = \frac{16}{32} = 50\,\%\), et non \(P(k \in \{2, 3\}) = \frac{10 + 10}{32} = 62{,}5\,\%\).

Réponse de GPT-5 mini (2026)

Diego répond à 5 sous-questions (a, b, c, d, e) de façon aléatoire. Chaque réponse est vrai ou faux avec une probabilité de 0,5. Le barème est :

\(+1\) point pour une bonne réponse,
\(-1\) point pour une mauvaise réponse,
\(0\) point si aucune réponse n’est donnée (ce cas ne s’applique pas ici, car Diego répond toujours).

La note totale de Diego est la somme des points obtenus pour les 5 sous-questions. Nous voulons calculer la probabilité que cette note soit exactement 0.

Chaque sous-question donne \(+1\) ou \(-1\) avec probabilité 0,5 chacune. La somme possible des points est donc : \(-5, -3, -1, +1, +3, +5\). La valeur 0 n’est pas atteignable.

\(\boxed{P(\text{score de 0}) = 0}\)

Diagnostic 2026. Raisonnement logiquement cohérent — la note brute ne peut effectivement jamais valoir 0 — mais même oubli de la note minimale que GPT-4 (late). Précisons que GPT-5 mini n’est pas le modèle phare d’OpenAI : c’est une version allégée, plus rapide et moins coûteuse.

Analyse. GPT-5 mini reproduit la même erreur fondamentale que GPT-4 (late) — ignorer la contrainte « la note minimale pour cette question est de 0 » — mais en tire une conclusion différente, et à certains égards plus cohérente.

Là où GPT-4 (late) avait constaté l’impossibilité de \(X = 0\) puis « corrigé » en incluant \(k = 2\) et \(k = 3\), GPT-5 mini va au bout de son raisonnement : puisque la somme de cinq variables \(\pm 1\) ne peut prendre que les valeurs \(\{-5, -3, -1, +1, +3, +5\}\), la note brute ne peut pas valoir 0, donc la probabilité est 0. Le raisonnement est logiquement irréprochable — à condition de ne considérer que la note brute.

Le problème est le même : le modèle n’a pas intégré la phrase « la note minimale pour cette question est de 0 ». Cette contrainte signifie que les notes brutes \(-5\), \(-3\) et \(-1\) sont toutes ramenées à 0. La question ne demande pas quand la note brute vaut 0 (ce qui est effectivement impossible), mais quand la note finale vaut 0 — ce qui arrive dès que la note brute est négative.

On notera également que GPT-5 mini tente d’identifier les réponses correctes à chaque sous-question (en mobilisant ses connaissances sur la musique québécoise), avant de réaliser que cette information est superflue puisque \(P(\text{bonne réponse}) = 0{,}5\) dans tous les cas. Ce détour est inutile mais révèle un réflexe des modèles de langage : chercher à résoudre le problème dans le monde réel plutôt que dans le cadre abstrait posé par l’énoncé.

Réponse de GPT-5.2 (2026)

Le nombre de bonnes réponses \(X\) suit une loi binomiale : \(X \sim \text{Bin}(5;\, 0{,}5)\).

S’il a \(X\) bonnes réponses, sa note brute est : \[X - (5 - X) = 2X - 5.\]

La note finale est donc : \[\max(0,\; 2X - 5).\]

Il faut que : \[2X - 5 \leq 0 \iff X \leq 2.\]

Donc Diego obtient 0 s’il a 0, 1 ou 2 bonnes réponses.

\[P(X \leq 2) = \frac{\dbinom{5}{0} + \dbinom{5}{1} + \dbinom{5}{2}}{2^5} = \frac{1 + 5 + 10}{32} = \frac{16}{32} = \frac{1}{2}.\]

La probabilité que Diego ait obtenu la note 0 à cette question est \(\boxed{0{,}5 \text{ (50 \%)}}\).

Diagnostic 2026 (GPT-5.2). Identification immédiate de la note finale comme \(\max(0, 2X - 5)\), puis résolution directe et exacte.

Analyse. GPT-5.2 est le premier modèle à résoudre correctement ce problème. La clé de son succès tient en une seule ligne : « la note finale est donc \(\max(0, 2X - 5)\) ». En formalisant explicitement l’opérateur \(\max\), le modèle intègre dès le départ la contrainte de note minimale dans sa modélisation, plutôt que de la traiter comme une condition secondaire. La suite est directe : \(\max(0, 2X - 5) = 0\) si et seulement si \(2X - 5 \leq 0\), soit \(X \leq 2\).

C’est précisément ce que GPT-4 (late) et GPT-5 mini n’avaient pas fait. Les deux modèles avaient posé \(X = 2k - 5\) (la note brute) et cherché quand cette expression valait 0, sans jamais formaliser la note finale comme le maximum entre la note brute et 0. GPT-5.2, en introduisant l’opérateur \(\max\) d’emblée, transforme la contrainte de l’énoncé en objet mathématique manipulable — et le reste du calcul en découle naturellement.

Conclusion

Le problème de Diego rejoint celui du Tricheur comme l’un des deux problèmes de cette série qui ont résisté jusqu’à GPT-5.2. Et la trajectoire des échecs est révélatrice.

En 2024, GPT-4 (early) ne lit même pas le barème. Il interprète « note de 0 » comme « tout faux » et calcule \(0{,}5^5 = 3{,}125\,\%\) — un raisonnement qui ignore presque tout l’énoncé. En 2025, GPT-4 (late) fait un travail de modélisation remarquable : il identifie le barème \(+1\)/\(-1\), pose la variable aléatoire \(X = 2k - 5\), et reconnaît que \(X = 0\) est impossible pour un nombre impair de questions. Mais au moment de conclure, il oublie la phrase clé : « la note minimale pour cette question est de 0 ». Il cherche quand la note brute vaut exactement 0, alors qu’il faudrait chercher quand elle est ramenée à 0, et obtient 62,5 %. En 2026, GPT-5 mini — un modèle allégé, pas le plus puissant de sa génération — identifie lui aussi correctement que la note brute ne peut jamais valoir 0, mais en conclut que la probabilité est nulle plutôt que de chercher quand la note est plafonnée à 0.

Les trois réponses erronées (3,125 %, 62,5 % et 0 %) illustrent trois manières de rater le même piège. La première ignore le barème. La deuxième comprend le barème mais, face à l’impossibilité d’une note brute de 0, improvise une correction injustifiée. La troisième, plus rigoureuse, constate correctement cette impossibilité mais s’y arrête, sans réaliser que la question porte sur la note finale, pas la note brute.

Ce qui distingue GPT-5.2, c’est sa capacité à formaliser la contrainte avant de calculer. En écrivant \(\max(0, 2X - 5)\), le modèle traduit la phrase « la note minimale pour cette question est de 0 » en objet mathématique. La contrainte n’est plus une annotation en marge de l’énoncé : elle fait partie intégrante du modèle probabiliste. Et dès lors, la résolution est immédiate.

Ce problème partage avec le Tricheur un même type de difficulté : une contrainte apparemment anodine dans l’énoncé (ici, la note minimale; là, le fait que cinq soirs et cinq personnes imposent l’unicité) qui transforme profondément la nature du calcul. Les modèles de langage reconnaissent les structures mathématiques classiques — loi binomiale, dénombrement, complémentarité — et les appliquent avec compétence croissante. Mais les contraintes qui modifient l’événement à calculer, celles qui demandent une relecture attentive de l’énoncé plutôt qu’une formule standard, n’ont été intégrées qu’à partir de GPT-5.2.

Pour les étudiants comme pour les modèles : lire l’énoncé en entier n’est pas une formalité.

Bilan de la série

Cet article clôt une expérience amorcée en 2023, où six questions tirées d’un même examen de probabilités ont été soumises à ChatGPT année après année. Le verdict est sans appel.

En 2023, avec GPT-3.5, le modèle aurait obtenu environ 10 % à l’examen — des réponses truffées d’erreurs conceptuelles, de formules inadaptées et d’arithmétique fantaisiste. En 2024, GPT-4 (early) fait à peine mieux : les raisonnements s’améliorent par endroits, mais les erreurs de fond persistent et le score global reste sous la barre des 20 %. L’année 2025 marque une percée majeure : pour la première fois, GPT-4 (late) aurait obtenu la note de passage. La plupart des problèmes sont correctement résolus, même si quelques pièges — comme celui de Diego — résistent encore. Puis, en 2026, GPT-5.2 atteint la perfection : 100 % à un examen jugé difficile par les étudiants eux-mêmes.

Personnellement, en 2023, si on m’avait dit que dans trois ans ChatGPT obtiendrait 100 % à cet examen, je n’y aurais jamais cru.