timeline
title Modèles évalués
2023 : GPT-3.5
: Réponse incorrecte
2024 : GPT-4 (early)
: Formule correcte, calcul erroné
2025 : GPT-4 (late)
: Réponse correcte
Introduction
Note. Cet article a été rédigé par Claude (Anthropic), en s’inspirant du style et de la structure des 3 premiers articles qui avait été écrits « à la main ».
Cinquième volet de la série, après le problème du Tricheur, celui du dénombrement, celui des probabilités conditionnelles et celui de l’indépendance. Cette fois, c’est un problème de dénombrement tiré du poker Omaha qui passe au banc d’essai.
Ce problème offre un cas de figure inédit dans cette série : en 2024, ChatGPT parvient pour la première fois à un raisonnement combinatoire parfait — la formule est exacte — mais échoue au moment de la calculer numériquement. La raison est connue : les modèles de langage raisonnent par association de patrons, pas par calcul arithmétique. Quand la structure mathématique est familière, le modèle excelle; quand il s’agit de multiplier trois nombres à deux chiffres, il peut flancher.
Le problème
Ce problème est tiré de l’examen 1 du cours STT-1500 : Probabilités à l’hiver 2015.
Le Omaha est une des nombreuses variantes du poker. Dans ce jeu, chaque joueur reçoit quatre cartes choisies parmi les 52 cartes d’un paquet régulier. Quelle est la probabilité qu’un joueur reçoive une main où les cartes sont assorties deux à deux? Dans une main où les cartes sont assorties deux à deux, il y a deux cartes d’une même couleur parmi pique, coeur, carreau et trèfle, et deux autres cartes d’une même couleur, mais différente de la couleur des deux cartes précédentes (en anglais on dit qu’elles sont double suited).
Observation. Ce problème est un exercice classique de dénombrement : identifier les cas favorables à l’aide de coefficients binomiaux, puis diviser par le nombre total de mains possibles.
Le nombre de mains favorables à cette situation est \[ \binom{4}{2}\binom{13}{2}\binom{13}{2} = 36\,504. \]
On choisit d’abord les deux couleurs parmi les quatre possibles. Puis, pour chaque couleur, on détermine les deux cartes, choisies parmi les treize cartes d’une même couleur, qui feront partie de la main. Par conséquent, la probabilité cherchée est \[ \frac{36\,504}{\dbinom{52}{4}} = \frac{2808}{20\,825} \approx 13{,}48\,\%. \]
Observation structurante. La démarche se résume en trois choix indépendants : choisir 2 couleurs parmi 4, choisir 2 cartes dans la première couleur, choisir 2 cartes dans la seconde. Le produit de ces choix donne le numérateur; le dénominateur est \(\binom{52}{4}\).
Évolution des réponses de ChatGPT
Il y a 13 cartes de chaque couleur dans un paquet régulier de 52 cartes, donc il y a \(13 \times 13 = 169\) cartes de deux couleurs différentes.
Il y a \(4 \times 3 = 12\) manières de choisir les deux couleurs pour les quatre cartes.
Il y a 13 cartes de chaque couleur choisie, donc il y a \(13 \times 13 = 169\) cartes possibles pour les deux premières cartes de même couleur.
Il y a 12 cartes de chaque couleur différente choisie pour les deux dernières cartes, donc il y a \(12 \times 12 = 144\) cartes possibles pour les deux dernières cartes de même couleur.
Donc, il y a \(12 \times 169 \times 144 = 311\,648\) mains possibles où les cartes sont assorties deux à deux.
Il y a \(52 \times 51 \times 50 \times 49 = 3\,268\,532\,00\) total de combinaisons de quatre cartes possibles.
La probabilité qu’un joueur reçoive une main où les cartes sont assorties deux à deux est donc de \(311\,648 / 3\,268\,532\,00 = 0{,}00944\) soit environ 0,94 %.
Diagnostic 2023. Confusion systématique entre arrangements et combinaisons, accompagnée d’erreurs arithmétiques multiples.
Analyse. Cette réponse cumule un nombre impressionnant d’erreurs. Commençons par le choix des couleurs : GPT-3.5 utilise \(4 \times 3 = 12\), ce qui compte des paires ordonnées de couleurs (pique-coeur \(\neq\) coeur-pique), alors que \(\binom{4}{2} = 6\) est le bon décompte. Ensuite, pour les cartes à l’intérieur d’une couleur, le modèle écrit \(13 \times 13 = 169\), soit le nombre de paires ordonnées avec remise. Or, on choisit 2 cartes distinctes sans remise et sans égard à l’ordre, ce qui donne \(\binom{13}{2} = 78\). Le passage mystérieux à \(12 \times 12 = 144\) pour la seconde couleur est inexplicable — les 13 cartes sont toujours disponibles.
Enfin, le dénominateur est tout aussi problématique : le modèle calcule \(52 \times 51 \times 50 \times 49\), ce qui donne le nombre d’arrangements (mains ordonnées) et non de combinaisons. Le nombre total de mains au Omaha est \(\binom{52}{4} = 270\,725\), pas \(6\,497\,400\). Pire encore, la valeur affichée (\(3\,268\,532\,00\)) ne correspond même pas au produit \(52 \times 51 \times 50 \times 49\). En résumé : mauvaises formules, mauvais nombres, mauvaise arithmétique.
Pour calculer la probabilité qu’un joueur reçoive une main où les cartes sont assorties deux à deux (double suited) au Omaha, nous devons d’abord déterminer combien de mains possibles correspondent à ce critère, puis diviser ce nombre par le nombre total de mains possibles.
Dans une main “double suited” au Omaha, il y a deux cartes de deux couleurs différentes parmi les quatre couleurs (pique, coeur, carreau, trèfle). Cela signifie qu’il y a \(\binom{4}{2}\) façons de choisir deux couleurs parmi les quatre.
Pour chaque paire de couleurs choisie, il y a \(\binom{13}{2}\) façons de choisir deux cartes de la première couleur, et également \(\binom{13}{2}\) façons de choisir deux cartes de la deuxième couleur.
Ainsi, le nombre total de mains “double suited” possibles est donné par :
\(\binom{4}{2} \times \binom{13}{2} \times \binom{13}{2}\)
Maintenant, calculons le nombre de mains possibles dans le Omaha. Il y a \(\binom{52}{4}\) façons de choisir quatre cartes parmi les 52 du paquet.
Enfin, pour obtenir la probabilité, divisons le nombre de mains “double suited” par le nombre total de mains possibles :
\[\text{Probabilité} = \frac{\dbinom{4}{2} \times \dbinom{13}{2} \times \dbinom{13}{2}}{\dbinom{52}{4}}\]
Calculons cette probabilité :
\[\text{Probabilité} = \frac{6 \times 78 \times 78}{270\,725} \approx 0{,}118\]
Donc, la probabilité qu’un joueur reçoive une main “double suited” au Omaha est d’environ 11,8 %.
Diagnostic 2024. Raisonnement combinatoire impeccable, mais erreur arithmétique dans le calcul final.
Analyse. Le contraste avec 2023 est saisissant. GPT-4 (early) identifie exactement les trois choix indépendants — \(\binom{4}{2}\) pour les couleurs, \(\binom{13}{2}\) pour chaque couleur — et pose la bonne formule, le bon numérateur et le bon dénominateur. Chaque coefficient binomial est correctement nommé et justifié.
L’erreur survient à la toute dernière étape, au moment de calculer \(\frac{6 \times 78 \times 78}{270\,725}\). Le résultat affiché est \(0{,}118\) (soit 11,8 %), alors que le calcul exact donne \(\frac{36\,504}{270\,725} \approx 0{,}1348\) (soit 13,48 %). Le raisonnement est parfait; c’est l’arithmétique qui déraille.
Ce phénomène est caractéristique des modèles de langage : ils manipulent des symboles mathématiques par association de patrons textuels, pas par calcul numérique. Reconnaître qu’une situation relève d’un coefficient binomial est un exercice de correspondance structurelle — exactement ce à quoi ces modèles excellent. Mais évaluer \(6 \times 78 \times 78 \div 270\,725\) exige une exécution arithmétique que le modèle simule sans la maîtriser.
Étape 1 : Calcul du nombre total de mains possibles
Un paquet de cartes régulier contient 52 cartes, et chaque joueur reçoit une main de 4 cartes. Le nombre total de mains possibles est donné par :
\[\binom{52}{4}\]
Étape 2 : Définir une main “double suited”
Une main est “double suited” si elle contient :
- 2 cartes d’une couleur donnée, \(C_1\),
- et 2 cartes d’une autre couleur différente, \(C_2\).
Les couleurs possibles sont : pique, coeur, carreau, et trèfle. Le problème consiste à sélectionner deux couleurs \(C_1\) et \(C_2\), puis choisir 2 cartes dans chaque couleur.
Étape 2.1 : Nombre de façons de choisir deux couleurs
Il y a 4 couleurs disponibles, donc le nombre de façons de choisir \(C_1\) et \(C_2\) est :
\[\binom{4}{2} = 6\]
Étape 2.2 : Nombre de façons de choisir 2 cartes dans \(C_1\) et 2 cartes dans \(C_2\)
Dans une couleur donnée, il y a 13 cartes. Le nombre de façons de choisir 2 cartes dans \(C_1\) est :
\[\binom{13}{2}\]
et pour \(C_2\), il y a également :
\[\binom{13}{2}\]
Étape 2.3 : Nombre total de mains “double suited”
En multipliant par le nombre de combinaisons de couleurs (6), on obtient :
\[6 \cdot \binom{13}{2} \cdot \binom{13}{2}\]
Étape 3 : Probabilité d’une main “double suited”
La probabilité qu’une main soit “double suited” est donnée par le rapport entre le nombre de mains “double suited” et le nombre total de mains possibles :
\[P(\text{double suited}) = \frac{6 \cdot \dbinom{13}{2} \cdot \dbinom{13}{2}}{\dbinom{52}{4}}\]
Étape 4 : Calcul numérique
La probabilité qu’un joueur reçoive une main “double suited” (assortie deux à deux) dans le jeu de poker Omaha est d’environ 13,48 %.
Diagnostic 2025. Solution correcte, détaillée et vérifiée numériquement.
Analyse. GPT-4 (late) produit essentiellement la même formule que GPT-4 (early) un an plus tôt, mais avec deux améliorations notables. D’abord, la présentation est plus structurée : le modèle décompose le problème en étapes numérotées, nomme les couleurs \(C_1\) et \(C_2\), et justifie chaque coefficient binomial séparément. Ensuite — et surtout — le calcul numérique est cette fois correct : 13,48 %.
La structure en étapes est typique de GPT-4 (late), qui a tendance à dérouler un raisonnement pas à pas plutôt qu’à présenter directement la formule finale. Comme on l’avait observé pour le problème de Carey Price et Dustin Tokarski, cette verbosité n’est pas un défaut en soi : pour un étudiant, les étapes intermédiaires constituent un support pédagogique utile.
Conclusion
Ce problème de poker Omaha rejoint les bouteilles de vin dans la catégorie des problèmes de dénombrement, et la trajectoire est similaire : une solution pleinement correcte dès 2025. Mais le cas de 2024 est particulièrement instructif.
Pour la première fois dans cette série, un modèle produit un raisonnement mathématique parfait tout en se trompant sur le résultat numérique. Là où les erreurs des articles précédents relevaient de la modélisation (mauvaise identification des contraintes, confusion entre événements, formules inadaptées), celle-ci est purement arithmétique. La formule \(\frac{\binom{4}{2} \cdot \binom{13}{2} \cdot \binom{13}{2}}{\binom{52}{4}}\) est posée sans la moindre erreur conceptuelle — chaque coefficient est correctement identifié et justifié. Mais \(6 \times 78 \times 78 \div 270\,725\) donne 11,8 % au lieu de 13,48 %.
Cette dissociation entre raisonnement et calcul illustre une caractéristique fondamentale des modèles de langage : ils excellent à reconnaître des structures mathématiques et à les associer aux bonnes formules, mais ils ne calculent pas — ils prédisent le prochain jeton. Quand la réponse numérique est suffisamment courante dans les données d’entraînement, la prédiction est correcte. Quand elle ne l’est pas, le modèle peut produire un nombre plausible mais faux.
Pour l’enseignement, ce cas de figure offre un avertissement utile : une solution dont la démarche est irréprochable peut néanmoins aboutir à une mauvaise réponse si le calcul final n’est pas vérifié. Les étudiants — comme les modèles de langage — ont parfois tendance à négliger cette dernière étape.