Des articles

12.4 : Théorème de Bayes


Dans cette section, nous nous concentrons sur les problèmes de probabilité conditionnelle plus complexes que nous avons commencé à examiner dans la dernière section.

Exemple 19

Supposons qu'une certaine maladie ait un taux d'incidence de 0,1 % (c'est-à-dire qu'elle touche 0,1 % de la population). Un test a été mis au point pour détecter cette maladie. Le test ne produit pas de faux négatifs (c'est-à-dire que toute personne atteinte de la maladie sera testée positive), mais le taux de faux positifs est de 5 % (c'est-à-dire qu'environ 5 % des personnes qui passent le test seront positives, même si ils n'ont pas la maladie). Supposons qu'une personne choisie au hasard passe le test et soit positive. Quelle est la probabilité que cette personne ait réellement la maladie ?

Solution

Il y a deux manières d'aborder la solution à ce problème. L'un implique un résultat important en théorie des probabilités appelé théorème de Bayes. Nous discuterons de ce théorème un peu plus tard, mais pour l'instant nous utiliserons une approche alternative et, nous l'espérons, beaucoup plus intuitive.

Décomposons les informations du problème pièce par pièce.

Supposons qu'une certaine maladie ait un taux d'incidence de 0,1 % (c'est-à-dire qu'elle touche 0,1 % de la population). Le pourcentage 0,1% peut être converti en un nombre décimal en déplaçant la décimale de deux positions vers la gauche, pour obtenir 0,001. À son tour, 0,001 peut être réécrit sous la forme d'une fraction : 1/1000. Cela nous dit qu'environ 1 personne sur 1000 a la maladie. (Si nous voulions, nous pourrions écrire P(maladie) = 0,001.)

Un test a été mis au point pour détecter cette maladie. Le test ne produit pas de faux négatifs (c'est-à-dire que toute personne atteinte de la maladie sera positive pour elle). Cette partie est assez simple : toute personne ayant la maladie sera testée positive, ou alternativement toute personne ayant un test négatif n'a pas la maladie. (On pourrait aussi dire P(positif | maladie)=1.)

Le taux de faux positifs est de 5 % (c'est-à-dire qu'environ 5 % des personnes qui passent le test seront positives, même si elles n'ont pas la maladie). C'est encore plus simple. Une autre façon de voir les choses est que sur 100 personnes testées et non atteintes de la maladie, 5 seront testées positives même si elles n'ont pas la maladie. (On pourrait aussi dire que (P)(positif | pas de maladie)=0,05.)

Supposons qu'une personne choisie au hasard passe le test et soit positive. Quelle est la probabilité que cette personne soit réellement atteinte de la maladie ? Ici, nous voulons calculer (P)(maladie|positif). Nous savons déjà que (P)(positive|maladie)=1, mais rappelons-nous que les probabilités conditionnelles ne sont pas égales si les conditions sont inversées.

Plutôt que de penser en termes de toutes ces probabilités que nous avons développées, créons une situation hypothétique et appliquons les faits comme indiqué ci-dessus. Tout d'abord, supposons que nous sélectionnions au hasard 1 000 personnes et que nous passions le test. Combien pensons-nous avoir la maladie ? Étant donné qu'environ 1/1000 de toutes les personnes sont atteintes de la maladie, (frac{1}{1000}) de 1000 personnes est 1. (Vous savez maintenant pourquoi nous avons choisi 1000.) Seul 1 des 1000 sujets de test a réellement la maladie; les 999 autres ne le font pas.

Nous savons également que 5% de toutes les personnes qui n'ont pas la maladie seront testées positives. Il y a 999 personnes indemnes de la maladie, nous nous attendons donc à ce que ((0,05)(999)=49,95) (donc environ 50) personnes testées positives qui n'ont pas la maladie.

Revenons maintenant à la question initiale, l'informatique P(maladie|positif). Il y a 51 personnes qui sont testées positives dans notre exemple (la seule personne malheureuse qui a réellement la maladie, plus les 50 personnes qui ont été testées positives mais ne l'ont pas). Une seule de ces personnes est atteinte de la maladie, alors

P(maladie | positif) (environ frac{1}{51} environ 0,0196)

ou moins de 2%. Cela vous surprend-il ? Cela signifie que parmi toutes les personnes dont le test est positif, plus de 98% ne pas avoir la maladie.

La réponse que nous avons obtenue était légèrement approximative, puisque nous avons arrondi 49,95 à 50. Nous pourrions refaire le problème avec 100 000 sujets de test, dont 100 auraient la maladie et ((0,05)(99 900)=4995) testent positifs mais ne le font pas avez la maladie, donc la probabilité exacte d'avoir la maladie si votre test est positif est

P(maladie | positif) (environ frac{100}{5095} environ 0,0196)

ce qui est à peu près la même réponse.

Mais revenons au résultat surprenant. De toutes les personnes dont le test est positif, plus de 98% n'ont pas la maladie. Si votre estimation de la probabilité qu'une personne testée positive soit atteinte de la maladie était très différente de la bonne réponse (2%), ne vous sentez pas mal. Le même problème a été posé aux médecins et aux étudiants en médecine de la Harvard Medical School il y a 25 ans et les résultats ont été révélés dans une étude de 1978. Journal de médecine de la Nouvelle-Angleterre article. Seuls environ 18% des participants ont obtenu la bonne réponse. La plupart des autres pensaient que la réponse était plus proche de 95 % (peut-être ont-ils été induits en erreur par le taux de faux positifs de 5 %).

Donc, au moins, vous devriez vous sentir un peu mieux qu'un groupe de médecins n'ait pas non plus obtenu la bonne réponse (en supposant que vous pensiez que la réponse était beaucoup plus élevée). Mais l'importance de cette découverte et des résultats similaires d'autres études dans les années intermédiaires ne réside pas dans le fait que les étudiants en mathématiques se sentent mieux, mais dans les conséquences potentiellement catastrophiques que cela pourrait avoir pour les soins aux patients. Si un médecin pense que les chances qu'un résultat de test positif garantit presque qu'un patient a une maladie, il peut commencer un régime de traitement inutile et éventuellement nocif sur un patient en bonne santé. Ou pire, comme aux premiers jours de la crise du sida, alors qu'être séropositif était souvent assimilé à une condamnation à mort, le patient pouvait prendre des mesures drastiques et se suicider.

Comme nous l'avons vu dans cet exemple hypothétique, le plan d'action le plus responsable pour traiter un patient dont le test est positif serait de conseiller au patient qu'il ne pas avez la maladie et de demander d'autres tests, plus fiables, pour vérifier le diagnostic.

L'une des raisons pour lesquelles les médecins et les étudiants en médecine de l'étude ont si mal réussi est que de tels problèmes, lorsqu'ils sont présentés dans les types de cours de statistiques que les étudiants en médecine suivent souvent, sont résolus à l'aide du théorème de Bayes, qui est énoncé comme suit :

Théorème de Bayes

(P(A | B)=frac{P(A) P(B | A)}{P(A) P(B | A)+P(ar{A}) P(B | ar{ UNE})})

Dans notre exemple précédent, cela se traduit par

(P( ext { maladie } | ext { positif })=frac{P( ext { maladie }) P( ext { positif } | ext { maladie })}{P( ext { maladie }) P( ext { positif } | ext { maladie })+P( ext { aucune maladie }) P( ext { positif } | ext { aucune maladie })})

Brancher les chiffres donne

(P( ext { maladie } | ext { positif })=frac{(0.001)(1)}{(0.001)(1)+(0.999)(0.05)} approx 0.0196)

qui est exactement la même réponse que notre solution originale.

Le problème est que vous (ou l'étudiant en médecine typique, ou même le professeur de mathématiques typique) êtes beaucoup plus susceptible de vous souvenir de la solution originale que de vous souvenir du théorème de Bayes. Des psychologues, comme Gerd Gigerenzer, auteur de Risques calculés : comment savoir quand les chiffres vous trompent, ont préconisé que la méthode impliquée dans la solution originale (que Gigerenzer appelle la méthode des « fréquences naturelles ») soit employée à la place du théorème de Bayes. Gigerenzer a réalisé une étude et a constaté que ceux qui avaient appris la méthode des fréquences naturelles étaient capables de s'en souvenir beaucoup plus longtemps que ceux qui avaient appris le théorème de Bayes. Lorsque l'on considère les conséquences possibles de vie ou de mort associées à de tels calculs, il semble sage de tenir compte de ses conseils.

Exemple 20

Une certaine maladie a un taux d'incidence de 2%. Si le taux de faux négatifs est de 10 % et le taux de faux positifs est de 1 %, calculez la probabilité qu'une personne testée positive soit effectivement atteinte de la maladie.

Solution

Imaginez 10 000 personnes testées. Sur ces 10 000, 200 auront la maladie ; 10% d'entre eux, soit 20, seront testés négatifs et les 180 autres seront positifs. Sur les 9800 qui n'ont pas la maladie, 98 seront testés positifs. Ainsi, sur les 278 personnes au total testées positives, 180 auront la maladie. Ainsi

(P( ext { maladie } | ext { positif })=frac{180}{278} approx 0.647)

donc environ 65% des personnes testées positives auront la maladie.

L'utilisation directe du théorème de Bayes donnerait le même résultat :

(P( ext { maladie } | ext { positif })=frac{(0.02)(0.90)}{(0.02)(0.90)+(0.98)(0.01)}=frac{0.018}{0.0278 } environ 0,647)

Essayez-le maintenant 5

Une certaine maladie a un taux d'incidence de 0,5%. S'il n'y a pas de faux négatifs et si le taux de faux positifs est de 3 %, calculez la probabilité qu'une personne testée positive soit effectivement atteinte de la maladie.

Réponse

Sur 100 000 personnes, 500 seraient atteintes de la maladie. Parmi ceux-ci, les 500 seraient positifs. Sur les 99 500 sans la maladie, 2 985 seraient faussement positifs et les 96 515 autres seraient négatifs.

(mathrm{P}( ext { maladie } | ext { positif })=frac{500}{500+2985}=frac{500}{3485} environ 14,3 \%)


Questions et réponses fréquemment posées sur les entretiens avec les statistiques bayésiennes

L'une des découvertes les plus utiles dans le domaine des probabilités et des statistiques est la statistique bayésienne. Le développement de cette théorie de la décision a énormément augmenté le pouvoir de prise de décision et résolu de nombreux problèmes rencontrés avec les statistiques fréquentistes.

Le théorème de Bayes des statistiques bayésiennes porte souvent des noms différents tels que statistiques postérieures, probabilité inverse ou probabilité révisée.

Bien que le développement de la méthode bayésienne ait divisé les scientifiques des données en deux groupes – les bayésiens et les fréquentistes, l'importance du théorème de Bayes est inégalée. Dans certains cas incertains, il n'est pas possible de parvenir à une conclusion sans Bayesian.

Par conséquent, si vous avez hâte de devenir un scientifique des données, un ingénieur en apprentissage automatique ou un ingénieur en données, les statistiques bayésiennes sont un concept important à apprendre. Savoir ce que sont les statistiques bayésiennes, leur fonctionnement et tous les aspects essentiels du sujet sont la clé pour éclaircir le processus d'entretien.

Par conséquent, nous avons créé un guide simple contenant des questions d'entretien cruciales basées sur le théorème de Bayes . Étudiez brièvement ces questions et réponses pour bien réussir votre entretien d'apprentissage automatique.


Contenu

Le théorème de Bayes est exprimé mathématiquement par l'équation suivante : [3]

Preuve Modifier

Pour les événements Modifier

Le théorème de Bayes peut être dérivé de la définition de la probabilité conditionnelle :

où P ( A ∩ B ) est la probabilité conjointe que A et B soient vrais. Parce que

Pour les variables aléatoires continues Modifier

Pour deux variables aléatoires continues X et Oui, le théorème de Bayes peut être dérivé de la même manière de la définition de la densité conditionnelle :

Test de drogue Modifier

Supposons qu'un test particulier pour savoir si quelqu'un a consommé du cannabis est sensible à 90 %, ce qui signifie que le taux de vrais positifs (TPR) = 0,90. Par conséquent, cela conduit à 90 % de vrais résultats positifs (identification correcte de la consommation de drogue) pour les consommateurs de cannabis.

Le test est également spécifique à 80%, ce qui signifie un taux de vrais négatifs (TNR) = 0,80. Par conséquent, le test identifie correctement 80% de non-utilisation pour les non-utilisateurs, mais génère également 20% de faux positifs, ou taux de faux positifs (FPR) = 0,20, pour les non-utilisateurs.

En supposant une prévalence de 0,05, ce qui signifie que 5 % des personnes consomment du cannabis, quelle est la probabilité qu'une personne aléatoire dont le test est positif soit vraiment un consommateur de cannabis ?

La valeur prédictive positive (VPP) d'un test est la proportion de personnes réellement positives parmi toutes celles testées positives, et peut être calculée à partir d'un échantillon comme suit :

VPP = Vrai positif / Testé positif

Le fait que P ( Positif ) = P ( Positif ∣ Utilisateur ) P ( Utilisateur ) + P ( Positif ∣ Non-utilisateur ) P ( Non-utilisateur ) >)=P(< exte>mid < exte>>P(< exte>)+P(< exte>mid < exte>>P(< exte>>> est une application directe de la loi de probabilité totale. Dans ce cas, il est dit que la probabilité qu'une personne soit testée positive est la probabilité qu'un utilisateur soit testé positif, multipliée par la probabilité d'être un utilisateur, plus la probabilité qu'un non-utilisateur soit positif, multipliée par la probabilité d'être un non-utilisateur. .

Ceci est vrai car les classifications utilisateur et non-utilisateur forment une partition d'un ensemble, à savoir l'ensemble des personnes qui passent le test de dépistage. Ceci, combiné à la définition de la probabilité conditionnelle, donne l'énoncé ci-dessus.

Même si quelqu'un est testé positif, la probabilité qu'il soit un utilisateur de cannabis n'est que de 19%, car dans ce groupe seulement 5% des personnes sont des utilisateurs, la plupart des positifs sont des faux positifs provenant des 95% restants.

Si 1 000 personnes étaient testées :

  • 950 sont des non-utilisateurs et 190 d'entre eux donnent des faux positifs (0,20 × 950)
  • 50 d'entre eux sont des utilisateurs et 45 d'entre eux donnent de vrais positifs (0,90 × 50)

Les 1 000 personnes rapportent ainsi 235 tests positifs, dont seulement 45 sont de véritables toxicomanes, soit environ 19%. Voir la figure 1 pour une illustration utilisant une boîte de fréquence, et notez à quel point la zone rose des vrais positifs est petite par rapport à la zone bleue des faux positifs.

Sensibilité ou spécificité Modifier

L'importance de la spécificité peut être vue en montrant que même si la sensibilité est portée à 100 % et la spécificité reste à 80 %, la probabilité qu'une personne testée positive soit réellement un consommateur de cannabis ne passe que de 19 % à 21 %, mais si la sensibilité est maintenue à 90 % et la spécificité est augmentée à 95 %, la probabilité s'élève à 49 %.

Taux de cancer Modifier

Même si 100% des patients atteints d'un cancer du pancréas ont un certain symptôme, quand quelqu'un a le même symptôme, cela ne signifie pas que cette personne a 100% de chances d'avoir un cancer du pancréas. Supposons que le taux d'incidence du cancer du pancréas est de 1/100 000, alors que 10/100 000 individus en bonne santé présentent les mêmes symptômes dans le monde, la probabilité d'avoir un cancer du pancréas étant donné les symptômes n'est que de 9,1 %, et les 90,9 % restants pourraient être des « faux positifs » ( c'est-à-dire qu'on dit faussement avoir un cancer « positif » est un terme déroutant quand, comme ici, le test donne de mauvaises nouvelles).

Sur la base du taux d'incidence, le tableau suivant présente les nombres correspondants pour 100 000 personnes.

Ce qui peut ensuite être utilisé pour calculer la probabilité d'avoir un cancer lorsque vous avez les symptômes :

Taux d'articles défectueux Modifier

Une usine produit un article à l'aide de trois machines - A, B et C - qui représentent respectivement 20 %, 30 % et 50 % de sa production. Parmi les articles produits par la machine A, 5% sont défectueux de la même manière, 3% des articles de la machine B et 1% des machines C sont défectueux. Si un article choisi au hasard est défectueux, quelle est la probabilité qu'il ait été produit par la machine C ?

Encore une fois, la réponse peut être obtenue sans utiliser la formule en appliquant les conditions à un nombre hypothétique de cas. Par exemple, si l'usine produit 1 000 articles, 200 seront produits par la machine A, 300 par la machine B et 500 par la machine C. La machine A produira 5 % × 200 = 10 articles défectueux, la machine B 3 % × 300 = 9 , et Machine C 1% × 500 = 5, pour un total de 24. Ainsi, la probabilité qu'un article défectueux sélectionné au hasard ait été produit par la machine C est de 5/24 (

Ce problème peut également être résolu en utilisant le théorème de Bayes : Soit Xje désigne l'événement où un élément choisi au hasard a été fabriqué par le je ème machine (pour je = A,B,C). Laisser Oui désignent l'événement où un article choisi au hasard est défectueux. Ensuite, on nous donne les informations suivantes :

Si l'article a été fabriqué par la première machine, la probabilité qu'il soit défectueux est de 0,05, c'est-à-dire P(Oui | XUNE) = 0,05. Globalement, nous avons

Pour répondre à la question initiale, nous trouvons d'abord P(Y). Cela peut être fait de la manière suivante :

Par conséquent, 2,4% de la production totale est défectueux.

On nous donne que Oui s'est produit, et nous voulons calculer la probabilité conditionnelle de XC. Par le théorème de Bayes,

Etant donné que l'article est défectueux, la probabilité qu'il ait été fabriqué par la machine C est de 5/24. Bien que la machine C produise la moitié de la production totale, elle produit une fraction beaucoup plus petite des articles défectueux. Ainsi, le fait de savoir que l'élément sélectionné était défectueux nous permet de remplacer la probabilité a priori P(XC) = 1/2 par la plus petite probabilité postérieure P(XC | Oui) = 5/24.

L'interprétation de la règle de Bayes dépend de l'interprétation de la probabilité attribuée aux termes. Les deux principales interprétations sont décrites ci-dessous. La figure 2 montre une visualisation géométrique similaire à la figure 1. Gerd Gigerenzer et ses co-auteurs ont fait de gros efforts pour enseigner la règle de Bayes de cette façon, en mettant particulièrement l'accent sur son enseignement aux médecins. [4] Un exemple est la page Web de Will Kurt, "Bayes' Theorem with Lego", devenue plus tard le livre, Les statistiques bayésiennes de manière amusante : comprendre les statistiques et les probabilités avec Star Wars, LEGO et Rubber Ducks. Zhu et Gigerenzer ont découvert en 2006 que, alors que 0 % des élèves de 4e, 5e et 6e pouvaient résoudre des problèmes de mots après avoir appris avec des formules, 19 %, 39 % et 53 % le pouvaient après avoir appris avec des boîtes de fréquence, et que l'apprentissage était soit complet, soit nul. [5]

Interprétation bayésienne Modifier

Dans l'interprétation bayésienne (ou épistémologique), la probabilité mesure un « degré de croyance ». Le théorème de Bayes relie le degré de croyance en une proposition avant et après la prise en compte de la preuve. Par exemple, supposons que l'on pense avec une certitude de 50 % qu'une pièce a deux fois plus de chances de tomber face que face. Si la pièce est lancée plusieurs fois et que les résultats sont observés, ce degré de croyance augmentera ou diminuera probablement, mais pourrait même rester le même, selon les résultats. Pour proposition UNE et preuves B,

  • P (UNE), les avant, est le degré initial de croyance en UNE.
  • P (UNE | B), les postérieur, est le degré de croyance après avoir incorporé des informations qui B est vrai.
  • le quotient P(B | UNE) / P(B) représente le support B prévoit UNE.

Pour en savoir plus sur l'application du théorème de Bayes sous l'interprétation bayésienne de la probabilité, voir l'inférence bayésienne.

Interprétation fréquentiste Modifier

Dans l'interprétation fréquentiste, la probabilité mesure une « proportion de résultats ». Par exemple, supposons qu'une expérience soit effectuée plusieurs fois. P(UNE) est la proportion de résultats avec propriété UNE (le prieur) et P(B) est la proportion avec la propriété B. P(B | UNE) est la proportion de résultats avec propriété B hors de résultats avec propriété UNE, et P(UNE | B) est la proportion de ceux qui ont UNE hors de ceux avec B (le postérieur).

Le rôle du théorème de Bayes est mieux visualisé avec des diagrammes en arbre tels que la figure 3. Les deux diagrammes partitionnent les mêmes résultats par UNE et B dans des ordres opposés, pour obtenir les probabilités inverses. Le théorème de Bayes relie les différents partitionnements.

Exemple Modifier

Un entomologiste repère ce qui pourrait, en raison du motif sur son dos, être une sous-espèce rare de coléoptère. Un plein 98% des membres de la sous-espèce rare ont le modèle, donc P(Motif | Rare) = 98%. Seulement 5% des membres de la sous-espèce commune ont le motif. La sous-espèce rare représente 0,1% de la population totale. Quelle est la probabilité que le coléoptère ait le motif d'être rare : qu'est-ce qui est P(Rare | Motif) ?

De la forme étendue du théorème de Bayes (puisque tout coléoptère est rare ou commun),

Événements Modifier

Formulaire simple Modifier

Pour les événements UNE et B, à condition que P(B) ≠ 0,

Dans de nombreuses applications, par exemple dans l'inférence bayésienne, l'événement B est fixé dans la discussion, et nous souhaitons considérer l'impact de son observation sur notre croyance en divers événements possibles UNE. Dans une telle situation, le dénominateur de la dernière expression, la probabilité de la preuve donnée B, est fixe ce que nous voulons faire varier est UNE. Le théorème de Bayes montre alors que les probabilités postérieures sont proportionnelles au numérateur, donc la dernière équation devient :

En mots, le postérieur est proportionnel aux temps antérieurs de la vraisemblance. [6]

Si des événements UNE1, UNE2, . sont mutuellement exclusifs et exhaustifs, c'est-à-dire que l'un d'eux est certain de se produire mais que deux ne peuvent pas se produire ensemble, nous pouvons déterminer la constante de proportionnalité en utilisant le fait que leurs probabilités doivent totaliser un. Par exemple, pour un événement donné UNE, l'événement UNE lui-même et son complément ¬UNE sont exclusifs et exhaustifs. Désignant la constante de proportionnalité par c on a

En additionnant ces deux formules, on en déduit que

1 = c ( P ( B | A ) ⋅ P ( A ) + P ( B | ¬ A ) ⋅ P ( ¬ A ) ) ,

Forme alternative Modifier

Une autre forme de théorème de Bayes pour deux déclarations ou hypothèses concurrentes est :

Pour une interprétation épistémologique :

Pour proposition UNE et preuves ou antécédents B, [7]

  • P ( A ) est la probabilité a priori, le degré initial de croyance en UNE.
  • P ( ¬ A ) est le degré initial correspondant de croyance en pas-A, ce UNE est faux, où P ( ¬ A ) = 1 − P ( A )
  • P ( B | A ) est la probabilité ou vraisemblance conditionnelle, le degré de croyance en B étant donné cette proposition UNE est vrai.
  • P ( B | A ) est la probabilité conditionnelle ou vraisemblance, le degré de croyance en B étant donné cette proposition UNE c'est faux.
  • P ( A | B ) est la probabilité postérieure, la probabilité de UNE après avoir pris en compte B.

Formulaire étendu Modifier

Souvent, pour certaines partitions <UNEj> de l'espace échantillon, l'espace événement est donné en termes de P(UNEj) et P(B | UNEj). Il est alors utile de calculer P(B) en utilisant la loi de probabilité totale :

Dans le cas particulier où UNE est une variable binaire :

Variables aléatoires Modifier

Considérons un espace échantillon sample généré par deux variables aléatoires X et Oui. En principe, le théorème de Bayes s'applique aux événements UNE = <X = X> et B = <Oui = oui>.

Cependant, les termes deviennent 0 aux points où l'une ou l'autre des variables a une densité de probabilité finie. Pour rester utile, le théorème de Bayes doit être formulé en termes de densités pertinentes (voir Dérivation).

Formulaire simple Modifier

Si X est continue et Oui est discret,

Si X est discret et Oui est continue,

Si les deux X et Oui sont continus,

Formulaire étendu Modifier

Un espace d'événement continu est souvent conceptualisé en termes de termes de numérateur. Il est alors utile d'éliminer le dénominateur en utilisant la loi de probabilité totale. Pour FOui(oui), cela devient une intégrale :

La règle de Bayes Modifier

est appelé facteur de Bayes ou rapport de vraisemblance. La cote entre deux événements est simplement le rapport des probabilités des deux événements. Ainsi

Ainsi, la règle dit que les probabilités postérieures sont les probabilités antérieures multipliées par le facteur de Bayes, ou en d'autres termes, la postérieure est proportionnelle aux multiplicités antérieures de la probabilité.

Logique propositionnelle Modifier

Le théorème de Bayes représente une généralisation de la contraposition qui, en logique propositionnelle, peut être exprimée par :

La formule correspondante en termes de calcul des probabilités est le théorème de Bayes qui, sous sa forme développée, s'exprime par :

Logique subjective Modifier

Le théorème de Bayes représente un cas particulier d'inversion conditionnelle en logique subjective exprimée par :

B S ) = ( ω B ∣ A S , ω B ∣ ¬ A S ) ϕ

Par conséquent, le théorème subjectif de Bayes représente une généralisation du théorème de Bayes. [9]

Version conditionnée Modifier

Une version conditionnée du théorème de Bayes [10] résulte de l'ajout d'un troisième événement C sur lequel toutes les probabilités sont conditionnées :

Dérivation Modifier

P ( A B ∩ C ) = P ( A ∣ B ∩ C ) P ( B ∣ C ) P ( C )

P ( A B ∩ C ) = P ( B ∩ A ∩ C ) = P ( B ∣ A ∩ C ) P ( A ∣ C ) P ( C )

Le résultat souhaité est obtenu en identifiant les deux expressions et en résolvant P ( A ∣ B ∩ C ) .

Règle de Bayes avec 3 événements Modifier

Dans le cas de 3 événements - A, B et C - on peut montrer que :

Le théorème de Bayes est nommé d'après le révérend Thomas Bayes ( / b e z / c. 1701 – 1761), qui a d'abord utilisé la probabilité conditionnelle pour fournir un algorithme (sa proposition 9) qui utilise des preuves pour calculer les limites d'un paramètre inconnu, publié sous Un essai pour résoudre un problème dans la doctrine des chances (1763). Il a étudié comment calculer une distribution pour le paramètre de probabilité d'une distribution binomiale (dans la terminologie moderne). À la mort de Bayes, sa famille a transféré ses papiers à son vieil ami, Richard Price (1723 - 1791) qui, sur une période de deux ans, a révisé de manière significative le manuscrit non publié, avant de l'envoyer à un ami qui l'a lu à haute voix à la Royal Society le 23 Décembre 1763. [1] [ page nécessaire ] Price a édité [12] L'ouvrage majeur de Bayes "An Essay to solve a Problem in the Doctrine of Chances" (1763), paru dans Transactions philosophiques, [13] et contient le théorème de Bayes. Price a écrit une introduction à l'article qui fournit une partie des bases philosophiques des statistiques bayésiennes et a choisi l'une des deux solutions proposées par Bayes. En 1765, Price est élu membre de la Royal Society en reconnaissance de son travail sur l'héritage de Bayes. [14] [15] Le 27 avril, une lettre envoyée à son ami Benjamin Franklin a été lue à la Royal Society et publiée plus tard, où Price applique ce travail à la population et au calcul des « rentes viagères ». [16]

Indépendamment de Bayes, Pierre-Simon Laplace en 1774, puis en 1812 Théorie analytique des probabilités, a utilisé une probabilité conditionnelle pour formuler la relation d'une probabilité postérieure mise à jour à partir d'une probabilité antérieure, compte tenu de la preuve. Il reproduisit et étendit les résultats de Bayes en 1774, ignorant apparemment les travaux de Bayes. [note 1] [17] L'interprétation bayésienne de probabilité a été développée principalement par Laplace. [18]

Sir Harold Jeffreys a mis l'algorithme de Bayes et la formulation de Laplace sur une base axiomatique, écrivant que le théorème de Bayes « est à la théorie des probabilités ce que le théorème de Pythagore est à la géométrie ». [19]

Stephen Stigler a utilisé un argument bayésien pour conclure que le théorème de Bayes a été découvert par Nicholas Saunderson, un mathématicien anglais aveugle, quelque temps avant Bayes [20] [21] cette interprétation, cependant, a été contestée. [22] Martyn Hooper [23] et Sharon McGrayne [24] ont soutenu que la contribution de Richard Price était substantielle :

Selon les normes modernes, nous devrions nous référer à la règle Bayes-Price. Price découvrit l'œuvre de Bayes, reconnut son importance, la corrigea, contribua à l'article et lui trouva une utilité. La convention moderne consistant à n'employer que le nom de Bayes est injuste mais tellement ancrée que tout le reste n'a guère de sens. [24]

En génétique, le théorème de Bayes peut être utilisé pour calculer la probabilité qu'un individu ait un génotype spécifique. De nombreuses personnes cherchent à évaluer approximativement leurs chances d'être affectées par une maladie génétique ou leur probabilité d'être porteuses d'un gène récessif d'intérêt. Une analyse bayésienne peut être effectuée sur la base des antécédents familiaux ou des tests génétiques, afin de prédire si un individu développera une maladie ou en transmettra une à ses enfants. Les tests génétiques et la prédiction sont une pratique courante chez les couples qui envisagent d'avoir des enfants mais craignent qu'ils ne soient tous deux porteurs d'une maladie, en particulier au sein des communautés à faible variance génétique. [ citation requise ]

La première étape de l'analyse bayésienne pour la génétique est de proposer des hypothèses mutuellement exclusives : pour un allèle spécifique, un individu est ou n'est pas porteur. Ensuite, quatre probabilités sont calculées : probabilité antérieure (la probabilité que chaque hypothèse considère des informations telles que les antécédents familiaux ou les prédictions basées sur l'héritage mendélien), probabilité conditionnelle (d'un certain résultat), probabilité conjointe (produit des deux premières) et postérieure Probabilité (un produit pondéré calculé en divisant la probabilité conjointe pour chaque hypothèse par la somme des deux probabilités conjointes). Ce type d'analyse peut être effectué uniquement sur la base des antécédents familiaux d'une maladie ou de concert avec des tests génétiques. [ citation requise ]

Utiliser le pedigree pour calculer les probabilités Modifier

Hypothèse Hypothèse 1 : Le patient est porteur Hypothèse 2 : Le patient n'est pas porteur
Probabilité antérieure 1/2 1/2
Probabilité conditionnelle que les quatre descendants ne soient pas affectés (1/2) · (1/2) · (1/2) · (1/2) = 1/16 Environ 1
Probabilité conjointe (1/2) · (1/16) = 1/32 (1/2) · 1 = 1/2
Probabilité postérieure (1/32) / (1/32 + 1/2) = 1/17 (1/2) / (1/32 + 1/2) = 16/17

Exemple d'un tableau d'analyse bayésienne du risque de maladie d'une personne de sexe féminin basé sur la connaissance que la maladie est présente chez ses frères et sœurs mais pas chez ses parents ou l'un de ses quatre enfants. Sur la seule base du statut des frères et sœurs et des parents du sujet, elle est tout aussi susceptible d'être porteuse que non-porteuse (cette probabilité est désignée par l'hypothèse antérieure). Cependant, la probabilité que les quatre fils du sujet ne soient pas tous affectés est de 1/16 (½·½·½·½) si elle est porteuse, d'environ 1 si elle est non porteuse (c'est la probabilité conditionnelle). La probabilité conjointe réconcilie ces deux prédictions en les multipliant entre elles. La dernière ligne (la probabilité postérieure) est calculée en divisant la probabilité conjointe pour chaque hypothèse par la somme des deux probabilités conjointes. [25]

Utiliser les résultats des tests génétiques Modifier

Les tests génétiques parentaux peuvent détecter environ 90% des allèles de maladies connus chez les parents qui peuvent conduire à un statut de porteur ou affecté chez leur enfant. La mucoviscidose est une maladie héréditaire causée par une mutation autosomique récessive du gène CFTR [26] situé sur le bras q du chromosome 7. [27]

Analyse bayésienne d'une patiente ayant des antécédents familiaux de mucoviscidose (FK), qui a été testée négative pour la mucoviscidose, démontrant comment cette méthode a été utilisée pour déterminer son risque d'avoir un enfant né avec la mucoviscidose :

La patiente n'étant pas affectée, elle est soit homozygote pour l'allèle sauvage, soit hétérozygote. Pour établir les probabilités a priori, un carré de Punnett est utilisé, basé sur la connaissance qu'aucun des parents n'a été touché par la maladie mais que les deux auraient pu être porteurs :

Homozygote pour la nature-
type allèle (un non porteur)

Hétérozygote (un porteur des FC)

Homozygote pour la nature-
type allèle (un non porteur)

Hétérozygote (un porteur des FC)

(affecté par la mucoviscidose)

Étant donné que le patient n'est pas affecté, il n'y a que trois possibilités. Dans ces trois cas, il existe deux scénarios dans lesquels le patient porte l'allèle mutant. Ainsi, les probabilités a priori sont ⅔ et ⅓.

Ensuite, le patient subit des tests génétiques et des tests négatifs pour la mucoviscidose. Ce test a un taux de détection de 90 %, les probabilités conditionnelles d'un test négatif sont donc de 1/10 et 1. Enfin, les probabilités conjointes et postérieures sont calculées comme précédemment.

Hypothèse Hypothèse 1 : Le patient est porteur Hypothèse 2 : Le patient n'est pas porteur
Probabilité antérieure 2/3 1/3
Probabilité conditionnelle d'un test négatif 1/10 1
Probabilité conjointe 1/15 1/3
Probabilité postérieure 1/6 5/6

Après avoir effectué la même analyse sur le partenaire masculin du patient (avec un résultat de test négatif), les chances que leur enfant soit atteint sont égales au produit des probabilités postérieures respectives des parents d'être porteurs par les chances que deux porteurs produisent un progéniture affectée (¼).

Tests génétiques effectués parallèlement à l'identification d'autres facteurs de risque. Éditer

L'analyse bayésienne peut être effectuée en utilisant des informations phénotypiques associées à une maladie génétique, et lorsqu'elle est combinée avec des tests génétiques, cette analyse devient beaucoup plus compliquée. La mucoviscidose, par exemple, peut être identifiée chez un fœtus grâce à une échographie à la recherche d'un intestin échogène, c'est-à-dire d'un intestin qui apparaît plus lumineux que la normale sur un scanner2. Ce test n'est pas infaillible, car un intestin échogène peut être présent chez un fœtus en parfaite santé. Les tests génétiques parentaux sont très influents dans ce cas, où une facette phénotypique peut être trop influente dans le calcul de probabilité. Dans le cas d'un fœtus avec un intestin échogène, avec une mère qui a été testée et qui est connue pour être porteuse de la mucoviscidose, la probabilité postérieure que le fœtus ait réellement la maladie est très élevée (0,64). Cependant, une fois que le père a été testé négatif pour la mucoviscidose, la probabilité postérieure chute de manière significative (à 0,16). [25]

Le calcul des facteurs de risque est un outil puissant dans le conseil génétique et la planification de la reproduction, mais il ne peut pas être considéré comme le seul facteur important à prendre en compte. Comme ci-dessus, des tests incomplets peuvent donner une probabilité faussement élevée de statut de porteur, et les tests peuvent être financièrement inaccessibles ou irréalisables en l'absence d'un parent.


11.2 Théorème de Bayes et inférence inverse

The reason that Bayesian statistics has its name is because it takes advantage of Bayes’ theorem to make inferences from data about the underlying process that generated the data. Let’s say that we want to know whether a coin is fair. To test this, we flip the coin 10 times and come up with 7 heads. Before this test we were pretty sure that the (P_=0.5) , but finding 7 heads out of 10 flips would certainly give us pause if we believed that (P_=0.5) . We already know how to compute the conditional probability that we would flip 7 or more heads out of 10 if the coin is really fair ( (P(nge7|p_=0.5)) ), using the binomial distribution.

The resulting probability is 0.055. That is a fairly small number, but this number doesn’t really answer the question that we are asking – it is telling us about the likelihood of 7 or more heads given some particular probability of heads, whereas what we really want to know is the true probability of heads for this particular coin. This should sound familiar, as it’s exactly the situation that we were in with null hypothesis testing, which told us about the likelihood of data rather than the likelihood of hypotheses.

Remember that Bayes’ theorem provides us with the tool that we need to invert a conditional probability:

We can think of this theorem as having four parts:

  • prior ( (P(Hypothesis)) ): Our degree of belief about hypothesis H before seeing the data D
  • likelihood ( (P(Data|Hypothesis)) ): How likely are the observed data D under hypothesis H?
  • marginal likelihood ( (P(Data)) ): How likely are the observed data, combining over all possible hypotheses?
  • posterior ( (P(Hypothesis|Data)) ): Our updated belief about hypothesis H, given the data D

In the case of our coin-flipping example:

  • prior ( (P_) ): Our degree of belief about the likelhood of flipping heads, which was (P_=0.5)
  • likelihood ( (P( ext<7 or more heads out of 10 flips>|P_=0.5)) ): How likely are 7 or more heads out of 10 flips if (P_=0.5)) ?
  • marginal likelihood ( (P( ext<7 or more heads out of 10 flips>)) ): How likely are we to observe 7 heads out of 10 coin flips, in general?
  • posterior ( (P_| ext<7 or more heads out of 10 coin flips>)) ): Our updated belief about (P_) given the observed coin flips

Here we see one of the primary differences between frequentist and Bayesian statistics. Frequentists do not believe in the idea of a probability of a hypothesis (i.e. our degree of belief about a hypothesis) – for them, a hypothesis is either true or it isn’t. Another way to say this is that for the frequentist, the hypothesis is fixed and the data are random, which is why frequentist inference focuses on describing the probability of data given a hypothesis (i.e. the p-value). Bayesians, on the other hand, are comfortable making probability statements about both data and hypotheses.


Addition Law, Multiplication Law and Bayes Theorem

In this lesson we will look at some laws or formulas of probability: the Addition Law, the Multiplication Law and the Bayes&rsquo Theorem or Bayes&rsquo Rule.

The following diagram shows the Addition Rules for Probability: Mutually Exclusive Events and Non-Mutually Exclusive Events. Scroll down the page for more examples and solutions on using the Addition Rules.

Addition Law of Probability

The general law of addition is used to find the probability of the union of two events. The expression denotes the probability of X occurring or Y occurring or both X and Y occurring.

The Addition Law of Probability is given by

If the two events are mutually exclusive, the probability of the union of the two events is the probability of the first event plus the probability of the second event. Since mutually exclusive events do not intersect, nothing has to be subtracted.

If X and Y are mutually exclusive, then the addition law of probability is given by

Multiplication Law of Probability

The following diagram shows the Multiplication Rules for Probability (Independent and Dependent Events) and Bayes' Theorem. Scroll down the page for more examples and solutions on using the Multiplication Rules and Bayes' Theorem.

The probability of the intersection of two events is called joint probability.

The Multiplication Law of Probability is given by

The notation is the intersection of two events and it means that both X and Y must happen. denotes the probability of X occurring given that Y has occurred.

When two events X and Y are independent,

If X and Y are independent then the multiplication law of probability is given by

Bayes&rsquo Theorem or Bayes&rsquo Rule

The Bayes&rsquo Theorem was developed and named for Thomas Bayes (1702 &ndash 1761). Bayes&rsquo rule enables the statistician to make new and different applications using conditional probabilities. In particular, statisticians use Bayes&rsquo rule to &lsquorevise&rsquo probabilities in light of new information.

The Bayes&rsquo theorem is given by

Bayes&rsquo theorem can be derived from the multiplication law

Bayes&rsquo Theorem can also be written in different forms

Essayez la calculatrice Mathway gratuite et le résolveur de problèmes ci-dessous pour pratiquer divers sujets mathématiques. Essayez les exemples donnés ou saisissez votre propre problème et vérifiez votre réponse avec les explications étape par étape.

Nous apprécions vos commentaires, commentaires et questions sur ce site ou cette page. Veuillez soumettre vos commentaires ou demandes de renseignements via notre page de commentaires.


When does Bayes’ Theorem help?

Let’s consider this problem.

A, B, C are the rating that a bank gives to its
borrowers. Let’s the probability of getting rated A, B, and C are as follows.

Some of the customers defaulted on their borrowings. 1%
of the customers who were rated A, 10% of the customers who were rated B and
18% of the customers who were rated C became defaulters.

If a customer who is a defaulter. What is the probability
that he was rated A?

We can show all the customers of the bank by a rectangle and designate the portion of the customer’s who are rated A, B and C respectively by sections which are named A, B, and C as below. Also, the circle represents the customers who are defaulters and is denoted by D.


12.4: Bayes Theorem

In example 17 we considered a diagnostic test, and the probability of the test detecting the disease in someone who has it. But diagnostic tests can sometimes produce ‘false positives’: a test may claim the presence of the disease in someone who does ne pas have it. In these situations, we will want to know how likely it is someone has the disease, conditional on their test result.

A new diagnostic test has been developed for a particular disease. It is known that 0.1% of people in the population have the disease. The test will detect the disease in 95% of all people who really do have the disease. However, there is also the possibility of a “false positive” out of all people who do ne pas have the disease, the test will claim they do in 2% of cases.

A person is chosen at random to take the test, and the result is “positive”. How likely is it that that person has the disease?

Theoremل. (Bayes’ theorem) Suppose we have a partition of $mathcal= < E_1,ldots ,E_n>$ of a sample space $S$. Then for any event $F$,

Note that we can calculate $P(F)$ via the law of total probability:

Using this we can write Bayes’ theorem as

This is often the most useful version in practice.

Note that if $E$ is a single event then $< E,ar> $ is a partition with $n=2$, so we get a special case of Bayes’ theorem,

In the context of Bayes’ theorem, we sometimes refer to $P(E_i)$ as the prior probability of $E_i$, and $P(E_i|F)$ as the posterior probability of $E_i$ given $F$. The prior probability states how likely we thought $E_i$ was before we knew that $F$ had occurred, and the posterior probability states how likely we think $E_i$ is after we have learnt that $F$ has occurred.


Now,lets get back to our problem and try to solve it using Bayes’s Theorem
A = Probability of Bag 1
B = Probability of Black ball

P(A) = 1/2 = 0.5(Since there are two bags,probability of choosing Bag 1 is 1/2)
P(B|A) = 0.48 (Probability of black ball given bag1 #We have already solved this above)
P(B) = (24+40)/110 = 0.58 (Number of black balls in both the bags/Total number of balls in both the bags)

Thus,P(A|B) = 0.5 * 0.48 / 0.58 = 0.41

This example shows one application of Bayes Theorem.This theorem helps you to get one conditional probability from other.


Chapter 13 Class 12 Probability

Get NCERT solutions of all examples, exercises and Miscellaneous questions of Chapter 13 Class 12 Probability with detailed explanation. Formula sheet also available.

We started learning about Probability from Class 6,

we learned that Probability is Number of outcomes by Total Number of Outcomes.

In Class 11, we learned about Sample Space, Events, using Sets.

In this chapter, we will learn about

  • Conditional Probability - Finding probability of something when an event has already occurred. For example - finding probability of 4 coming in second throw of die if 6 has come in first throw. We also discuss its formula, properties and questions
  • Independent events - What is an independent event, and where is it used?
  • Multiplication rule of probability - We learn about dependent and independent events, and the multiplication rule for 2, or more than two events
  • Basic Probability - We solve questions using basic formula - Number of outcomes/Total Outcomes to find Probability, set theory, and permutation and combinations to find probability.
  • Theorem of total probability - We use the formula P(A) = P(B) P(A|B) + P(B') P(A|B')
  • Bayes theorem - Finding probability when an event has already happened
  • Random Variable - Writing random variable
  • Probability distribution - Finding probability distribution of random variable, and finding its mean (or expectation)
  • Variance and Standard Deviation of a Random Variable - Finding variance and standard deviation using probability distribution
  • Bernoulli Trials - Checking if an event is a Bernoulli trial
  • Binomial Distribution - For Bernoulli Trial, finding probability using Binomial Distribution

Check the chapter from different Concepts, starting from Basic to Advanced, or you can also refer to the exercises mentioned in the NCERT Book. Click on a topic below to start


Voir la vidéo: Probabilités S2 Probabilités Conditionnelles: le Théorème de Bayes (Octobre 2021).