timeline
title Modèles évalués
2023 : GPT-3.5
: Réponses incorrectes
2024 : GPT-4 (early)
: Réponses incorrectes
2025 : GPT-4 (late)
: Réponses partiellement correctes
2026 : GPT-5.2
: Réponses correctes et succintes
Introduction
Depuis la diffusion publique de ChatGPT en novembre 2022, les grands modèles de langage ont rapidement acquis une réputation de polyvalence. À ses premiers balbutiements, ChatGPT tenait davantage du charlatan confiant que de l’outil fiable : ses raisonnements mathématiques, truffés d’erreurs, exigeaient une vérification constante de la part de quiconque osait s’y fier.
Cette analyse s’appuie sur des questions posées en examen à la session d’hiver 2015 dans le cours STT-1500 : Probabilités. Il s’agit d’un cours de première année universitaire destiné principalement aux étudiants qui font un baccalauréat en mathématiques, en statistique et en sciences des données ou encore en finance quantitative. À l’hiver 2023, ces mêmes questions figuraient dans un document préparatoire au premier examen. L’occasion était trop belle : j’ai voulu voir quelles âneries la nouvelle vedette du moment allait régurgiter face à ces problèmes. C’était pour moi une façon de rappeler aux étudiants que bien comprendre un problème demeure difficile — même pour une machine bardée de milliards de paramètres. Je voulais, en somme, justifier les efforts qu’ils devaient consentir pour résoudre des problèmes de probabilités.
La présente analyse étudie l’évolution des réponses produites, entre 2023 et 2026, par différentes versions de ChatGPT face à une même question de probabilités assez simple, sans être directe.
Dans un premier temps, voici la liste des modèles utilisés et les résultats obtenus.
Contexte du problème
Cinq personnes participent au jeu questionnaire « Le tricheur ». Chaque soir de la semaine (cinq soirs consécutifs, du lundi au vendredi), une personne est choisie au hasard pour être désignée « le tricheur » de la partie. Le choix est effectué indépendamment d’un soir à l’autre et, à chaque soir, une seule personne est désignée.
Note. Ce jeu questionnaire est à l’affiche depuis 2012 au réseau TVA. Il est animé par Guy Jodoin. Si vous avez manqué un épisode, vous pouvez vous rattraper en cliquant ici.
Quelle est la probabilité que tous les participants aient été désignés tricheur au moins une fois durant la semaine ?
Pour que tous les participants aient été tricheur au moins une fois en cinq soirs, il faut nécessairement que chacun ait été choisi exactement une fois. Avec cinq soirs et une seule personne désignée par soir, toute répétition empêcherait qu’un autre participant soit choisi.
- À chaque soir on choisit un tricheur parmi cinq et on répète cinq fois. Il y a donc \(5^5\) manière de choisir les tricheurs pour une semaine.
- Le nombre manières de choisir des tricheurs différents chaque soir est \(5!\). En effet, on a 5 possibilités pour le premier soir, 4 pour le second, et ainsi de suite jusqu’à devoir prendre la personne qui n’a pas encore triché le vendredi.
On obtient donc \[ \mathbb{P}(\text{tous tricheurs au moins une fois}) = \frac{5!}{5^5} = \frac{120}{3125} = \frac{24}{625} \approx 0{,}0384. \]
Observation structurante. Ici, « au moins une fois » équivaut à « exactement une fois ». Cette contrainte gouverne entièrement le problème.
Évolution des réponses de ChatGPT
Il y a 5 personnes qui participent au jeu, donc chaque personne a une chance sur cinq d’être choisie comme tricheur chaque jour. Il y a 5 jours de jeux donc la probabilité que chaque personne a été choisie comme tricheur au moins une fois est :
\((1 - (4/5)^5) = 0{,}32768\) soit environ 32,768 %
Il est donc peu probable que tous les participants aient été tricheur au moins une fois durant la semaine.
Diagnostic 2023. Confusion entre un événement individuel et un événement collectif.
Analyse. La réponse repose sur l’expression \(1 - (4/5)^5\), qui correspond à la probabilité qu’un participant donné soit choisi au moins une fois en cinq soirs. Or, le problème demande la probabilité que tous les participants le soient. Le modèle confond un événement individuel avec un événement collectif et ne prend pas en compte la contrainte « une seule personne par soir ».
Pour résoudre ce problème, regardons la probabilité qu’un seul participant ne soit jamais choisi comme le tricheur sur une semaine de cinq jours.
La probabilité qu’un participant spécifique ne soit pas choisi comme le tricheur lors d’une partie est de \(\frac{4}{5}\) (car il y a quatre autres personnes parmi les cinq qui peuvent être choisies comme le tricheur).
Donc, la probabilité qu’un participant spécifique ne soit jamais choisi comme le tricheur sur cinq jours consécutifs est \(\left(\frac{4}{5}\right)^5\).
La probabilité qu’un participant spécifique soit choisi au moins une fois comme le tricheur sur cinq jours consécutifs est complémentaire à cette probabilité, c’est-à-dire \(1 - \left(\frac{4}{5}\right)^5\).
Maintenant, puisque chaque participant agit indépendamment des autres, la probabilité que tous les cinq participants aient été choisis au moins une fois comme le tricheur sur cinq jours consécutifs est le produit des probabilités que chaque participant spécifique ait été choisi au moins une fois :
\(\left(1 - \left(\frac{4}{5}\right)^5\right)^5\)
Calculons cette probabilité :
\(\left(1 - \left(\frac{4}{5}\right)^5\right)^5 \approx 0{,}67232\)
Donc, la probabilité que tous les cinq participants aient été choisis au moins une fois comme le tricheur sur cinq jours consécutifs est d’environ 67,23 %.
Diagnostic 2024. Raisonnement initial correct, mais on suppose une indépendance entre des événements fortement dépendants.
Analyse. GPT-4 (early) traite les événements « le participant \(i\) est choisi au moins une fois » comme s’ils étaient indépendants et combine leurs probabilités par un produit. Cette hypothèse est incompatible avec la contrainte fondamentale du problème : chaque soir, une seule personne est désignée — les événements sont donc fortement dépendants.
Chaque soir, une personne parmi 5 est désignée comme tricheur, de façon aléatoire et indépendante. Le problème peut être formulé comme la probabilité que chaque participant ait été choisi au moins une fois au cours des 5 parties. Cela correspond au complément de la probabilité que, pour au moins un participant, celui-ci n’ait jamais été choisi comme tricheur.
- Probabilité qu’un participant spécifique ne soit jamais choisi
Lors d’une partie, la probabilité qu’un participant donné ne soit pas le tricheur est \(\frac{4}{5}\). Sur 5 parties, la probabilité qu’un participant spécifique ne soit jamais choisi est :
\(\left(\frac{4}{5}\right)^5\)
- Probabilité qu’au moins un participant ne soit jamais choisi
Il y a 5 participants, donc nous devons tenir compte de la probabilité qu’au moins un participant parmi 5 ne soit jamais choisi. Utilisons le complément de la probabilité que tous les participants aient été choisis au moins une fois :
\(P(\text{au moins un non choisi}) = 1 - P(\text{tous choisis au moins une fois})\)
Utilisation du principe d’inclusion-exclusion
La probabilité que tous les participants aient été choisis au moins une fois peut être calculée :
\(P(\text{tous choisis}) = 1 - \binom{5}{1}\left(\frac{4}{5}\right)^5 + \binom{5}{2}\left(\frac{3}{5}\right)^5 - \binom{5}{3}\left(\frac{2}{5}\right)^5 + \binom{5}{4}\left(\frac{1}{5}\right)^5\)
En simplifiant, on obtient la probabilité cherchée.
Diagnostic. Technique correcte, mais inutilement compliquée.
On obtient effectivement la probabilité cherchée si on se donne la peine de faire le calcul. Ici, c’est un peu comme si on définissait l’événement \(A_k\) comme étant le joueur \(k\) n’a pas été choisi comme tricheur au moins une fois et qu’on appliquait le principe d’inclusion-exclusion pour le calcul de la probabilité de réalisation de l’union des événements \(A_k\). Que l’union de \(A_k\) se réalise signifie bien qu’au moins une personne n’a pas été choisie comme tricheur durant la semaine.
(a) Tous ont été « tricheur » au moins une fois en 5 soirs
Chaque soir, on choisit une personne uniformément parmi 5, indépendamment. On a donc 5 tirages avec remise parmi 5 personnes.
Pour que chacun ait été tricheur au moins une fois en seulement 5 soirs, il faut nécessairement que chacun le soit exactement une fois (sinon il manquerait quelqu’un).
- Nombre total de suites possibles : \(5^5\).
- Nombre de suites favorables : toutes les permutations des 5 personnes sur 5 soirs, soit \(5! = 120\).
\(P(\text{tous au moins une fois}) = \frac{5!}{5^5} = \frac{120}{3125} = \frac{24}{625} \approx 0{,}0384.\)
✅ Réponse : \(\frac{24}{625} \approx 0{,}0384\)
Diagnostic 2026. Identification immédiate des contraintes et modélisation exacte.
Analyse. Le modèle reconnaît d’emblée que « tous au moins une fois » implique « chacun exactement une fois », puis calcule correctement \(\frac{5!}{5^5}\). La réponse est conceptuellement et mathématiquement exacte.
Une rare erreur de GPT-5.2
En janvier 2026, j’ai demandé à GPT-5.2 de m’expliquer ce qui clochait dans la réponse obtenue en 2025 (qui était correcte, mais différente du raisonnement plus direct effectué en 2026). C’est là que GPT-5.2 a flanché en affirmant ceci :
GPT-4 (late) invoque le principe d’inclusion-exclusion, ce qui constitue un progrès conceptuel important. Toutefois, cette méthode est conçue pour un cadre plus général (par exemple, \(n\) tirages parmi \(k\) personnes avec \(n > k\)). La contrainte « cinq soirs, cinq personnes » simplifie radicalement le problème : « au moins une fois » équivaut à « exactement une fois », ce qui ramène le calcul à un simple comptage de permutations.
Précisons que GPT-4 (late) et GPT-5.2 ne sont pas dans une relation ancêtre-descendant : il s’agit de deux branches parallèles issues d’une base commune. GPT-4 (late) (février 2025) correspond à une version aboutie de GPT-4, offrant un raisonnement plus robuste et un meilleur suivi des instructions, tandis que GPT-5.2 (février 2026) marque un saut générationnel orienté vers le raisonnement approfondi et la planification multi-étapes. L’erreur de GPT-5.2 ici n’est donc pas une incapacité à résoudre le problème, mais le fait de rejeter à tort une approche alternative — celle de GPT-4 (late) — qui était elle aussi valable.
Conclusion sur la question 1 (a)
L’évolution des réponses à cette question illustre une progression graduelle mais incomplète jusqu’en 2025. Les erreurs commises ne relèvent pas d’un manque de connaissances techniques — les formules invoquées (complémentaire, inclusion-exclusion) sont toutes pertinentes dans d’autres contextes. Le problème réside dans l’identification de la contrainte structurante : avec exactement cinq soirs et cinq personnes, « au moins une fois » se réduit à « exactement une fois ».
Ce n’est qu’en 2026, avec l’introduction du modèle GPT-5.2 et de son mécanisme de réflexion approfondie, que cette contrainte est identifiée avant le calcul.
Notons cependant que GPT-5.2 n’est pas parfait : son analyse de la solution proposée en 2025 est fautive.
Question 1 (b) : Marcel Leboeuf tricheur au moins deux fois
Énoncé
Quelle est la probabilité qu’un participant donné — disons Marcel Leboeuf — soit le tricheur lors d’au moins deux parties sachant que c’était lui le tricheur lundi soir ?
Sachant que Marcel est tricheur le lundi, il suffit qu’il soit tricheur au moins une autre fois parmi les quatre soirs restants pour que l’événement se réalise.
Pour chaque soir restant, la probabilité que Marcel ne soit pas tricheur est \(\frac{4}{5}\). En utilisant la propriété de complémentarité des probabilités et l’indépendance du choix des tricheurs, \[ \mathbb{P}(\text{Marcel tricheur au moins une autre fois}) = 1 - \left(\frac{4}{5}\right)^4 = 1 - \frac{256}{625} = \frac{369}{625} \approx 0{,}5904. \]
Observation. Après la condition « Marcel est tricheur lundi », l’événement recherché devient « au moins une fois parmi les quatre soirs restants », et non « au moins deux fois parmi ces quatre soirs ».
Évolution des réponses de ChatGPT
On considère que Marcel Leboeuf était le tricheur lundi soir, cela signifie qu’il reste 4 jours pour qu’il puisse être choisi comme tricheur à nouveau. Il y a 4 jours et 4 joueurs différents, donc la probabilité qu’il soit choisi comme tricheur lors d’un des 4 autres jours est de 4/5. Il y a 4 façons de choisir 2 jours parmi les 4 restants. Il y a 4 façons pour les deux jours choisis d’être choisis parmis les 4 restants. Il y a donc 4*4 = 16 façons pour Marcel Leboeuf d’être choisi comme tricheur 2 fois parmi les 4 jours restants. Il y a \(5^4 = 625\) façons pour les tricheurs de chaque jours d’être choisis parmis les 4 jours restants.
Donc la probabilité qu’il soit le tricheur lors d’au moins deux parties est de : \(16/625 = 0{,}0256\) soit environ 2,56%.
Analyse. Le modèle reconnaît que seuls les quatre soirs restants sont pertinents, mais le raisonnement combinatoire devient incohérent. Les arguments s’enchaînent sans qu’un modèle probabiliste explicite soit défini, et le calcul final ne correspond à aucun événement clairement identifié.
Diagnostic. Hallucination en réduisant le nombre de joueurs impliqués dans le jeu.
Si Marcel Leboeuf était le tricheur le lundi soir, nous cherchons maintenant la probabilité qu’il soit également le tricheur lors d’au moins une autre partie parmi les quatre jours restants.
La probabilité que Marcel Leboeuf soit le tricheur lors d’une des quatre autres parties est \(\frac{1}{5}\) (car il y a quatre jours où il peut ne pas être choisi comme le tricheur).
La probabilité qu’il ne soit pas le tricheur lors des quatre autres parties consécutives est \(\left(\frac{4}{5}\right)^4\).
La probabilité que Marcel Leboeuf soit le tricheur lors d’au moins deux parties est la probabilité qu’il soit le tricheur lors d’une des quatre autres parties \(\left(\frac{1}{5}\right)\) multipliée par la probabilité qu’il ne soit pas le tricheur lors des quatre autres parties consécutives \(\left(\frac{4}{5}\right)^4\) :
\(\left(\frac{1}{5}\right) \times \left(\frac{4}{5}\right)^4 = \left(\frac{4}{5}\right)^5\)
Calculons cette probabilité :
\(\left(\frac{4}{5}\right)^5 \approx 0{,}32768\)
Donc, la probabilité que Marcel Leboeuf soit le tricheur lors d’au moins deux parties parmi les cinq, sachant qu’il était le tricheur le lundi soir, est d’environ 32,77%.
Diagnostic. Reformulation initiale correcte, mais suvie d’une combinaison injustifiée de probabilités.
Analyse. La réponse identifie correctement la probabilité \(\left(\frac{4}{5}\right)^4\) de « jamais tricheur » sur quatre soirs, mais l’étape finale combine les probabilités de manière injustifiée. La multiplication \(\frac{1}{5} \times (4/5)^4\) ne correspond à aucun événement probabiliste cohérent.
- Condition initiale
Marcel est déjà désigné comme tricheur le lundi soir. Il reste donc 4 parties pour lesquelles il peut encore être choisi. La probabilité qu’il soit le tricheur lors d’une partie donnée est \(\frac{1}{5}\), et les choix sont indépendants.
- Distribution binomiale
Le nombre de fois où Marcel est choisi comme tricheur lors des 4 autres soirées suit une distribution binomiale \(B(n=4, p=\frac{1}{5})\). Nous cherchons la probabilité qu’il soit choisi au moins une fois parmi ces 4 soirées :
\(P(\text{au moins 2 fois} \mid \text{lundi}) = P(X \geq 2 \text{ avec } X \sim B(4, \frac{1}{5}))\)
- Calcul de \(P(X \geq 2)\)
\(P(X \geq 2) = 1 - P(X = 0) - P(X = 1)\)
Avec \(P(X = k) = \binom{4}{k}\left(\frac{1}{5}\right)^k\left(\frac{4}{5}\right)^{4-k}\), nous avons :
\(P(X = 0) = \binom{4}{0}\left(\frac{1}{5}\right)^0\left(\frac{4}{5}\right)^4 = \left(\frac{4}{5}\right)^4\)
\(P(X = 1) = \binom{4}{1}\left(\frac{1}{5}\right)^1\left(\frac{4}{5}\right)^3 = 4 \cdot \frac{1}{5} \cdot \left(\frac{4}{5}\right)^3\)
En combinant :
\(P(X \geq 2) = 1 - \left(\frac{4}{5}\right)^4 - 4 \cdot \frac{1}{5} \cdot \left(\frac{4}{5}\right)^3\)
Ces probabilités peuvent être calculées numériquement pour obtenir les réponses finales.
Diagnostic. Construction d’une modèle (binomial) pertinent, mais ce dernier est mal utilisé.
Analyse. Le nombre de fois où Marcel est choisi parmi les quatre soirs restants est correctement modélisé par une loi binomiale \(B(4, 1/5)\). Toutefois, l’erreur porte sur l’événement calculé : GPT-4 (late) cherche \(P(X \geq 2)\), c’est-à-dire « au moins deux fois parmi les quatre soirs restants ». Or, l’énoncé demande « au moins deux fois au total », ce qui — sachant que Marcel était déjà tricheur lundi — se traduit par « au moins une fois parmi les quatre soirs restants », soit \(P(X \geq 1)\).
(b) Marcel est tricheur au moins 2 fois sachant qu’il l’était lundi
Sachant que Marcel est tricheur lundi, il reste 4 soirs (mardi à vendredi), indépendants, où Marcel a probabilité \(\frac{1}{5}\) d’être choisi chaque soir.
On veut : \(P(\text{Marcel tricheur au moins une autre fois en 4 soirs})\)
C’est le complément de « Marcel n’est jamais tricheur durant les 4 soirs restants » :
\(1 - \left(\frac{4}{5}\right)^4 = 1 - \frac{256}{625} = \frac{369}{625} \approx 0{,}5904.\)
✅ Réponse : \(\frac{369}{625} \approx 0{,}5904\)
Diagnostic. Traduction correcte de la condition et calcul exact.
Analyse. Le modèle traduit correctement la condition « sachant que Marcel était le tricheur lundi » : il suffit que Marcel soit tricheur au moins une autre fois parmi les quatre soirs restants. L’approche complémentaire \(1 - (4/5)^4\) est directe et exacte.
Conclusion sur la question 1 (b)
Cette question met en lumière un piège classique en probabilités conditionnelles : la condition « sachant que Marcel était tricheur lundi » modifie l’événement recherché. « Au moins deux fois au total » devient « au moins une fois de plus », et non « au moins deux fois parmi les soirs restants ».
Les versions 2023 à 2025 échouent toutes à cette étape de reformulation : tantôt en négligeant l’information conditionnelle (Marcel était déjà tricheur lundi), tantôt en traduisant mal l’événement recherché, et ce, bien que les outils mobilisés (complémentaire, loi binomiale) soient techniquement corrects. Seule la version 2026 parvient à identifier précisément l’événement pertinent avant de calculer.
Conclusion générale
Le problème du Tricheur, bien que simple en apparence, illustre de manière frappante l’importance de la modélisation en probabilités. Entre 2023 et 2026, on observe une transition d’une résolution « par formules » — où les outils sont appliqués mécaniquement — vers une résolution guidée par l’identification préalable des contraintes structurelles.
Les erreurs observées ne relèvent pas d’un déficit technique : les formules invoquées sont souvent pertinentes dans d’autres contextes. Le problème réside dans la capacité à lire l’énoncé, identifier les contraintes et traduire correctement l’événement recherché avant tout calcul.
Pour l’enseignement, cette évolution rappelle que la compétence centrale demeure la capacité à formuler correctement un problème avant de le résoudre au moyen des concepts ou formules à notre disposition. Pour l’utilisateur d’outils d’IA générative, elle souligne que la fiabilité des réponses dépend encore largement de cette étape initiale : lire, interpréter et modéliser.