Des articles

8.1.1 : Exemples d'espaces et probabilités (exercices) - Mathématiques


SECTION 8.1 ENSEMBLE DE PROBLÈME : ECHANTILLONS ET PROBABILITÉ

Dans les problèmes 1 à 6, écrivez un exemple d'espace pour l'expérience donnée.

1) Un dé est lancé.

2) Un penny et un nickel sont jetés.

3) Un dé est lancé et une pièce de monnaie est lancée.

4) Trois pièces sont lancées.

5) Deux dés sont lancés.

6) Un pot contient quatre billes numérotées 1, 2, 3 et 4. Deux billes sont tirées.

Dans les problèmes 7 à 12, une carte est choisie au hasard dans un jeu. Trouvez les probabilités suivantes.

7) P(un as)

8) P (un carton rouge)

9) P (un club)

10) P (une carte de visage)

11) P(un valet ou un pique)

12) P(un valet et un pique)

Pour les problèmes 13 - 16 : Un pot contient 6 billes rouges, 7 blanches et 7 bleues. Si une bille est choisie au hasard, trouvez les probabilités suivantes.

13) P(rouge)

14) P(blanc)

15) P(rouge ou bleu)

16) P(rouge et bleu)

Pour les problèmes 17 - 22 : Considérez une famille de trois enfants. Trouvez les probabilités suivantes.

17) P(deux garçons et une fille)

18) P(au moins un garçon)

19) P(enfants des deux sexes)

20) P (au plus une fille)

21) P(les premier et troisième enfants sont des garçons)

22) P(tous les enfants sont du même sexe)

Pour les problèmes 23 - 27 : Deux dés sont lancés. Trouvez les probabilités suivantes.

23) P(la somme des dés est 5)

24) P(la somme des dés est 8)

25) P(la somme est 3 ou 6)

26) P(la somme est supérieure à 10)

27) P(le résultat est un double) (Indice : un double signifie que les deux dés affichent la même valeur)

Pour les problèmes 28-31 : Un pot contient quatre billes numérotées 1, 2, 3 et 4. Deux billes sont tirées au hasard SANS REMPLACEMENT. Cela signifie qu'une fois qu'une bille est tirée, elle n'est PAS replacée dans le pot avant que la deuxième bille ne soit sélectionnée. Trouvez les probabilités suivantes.

28) P(la somme des nombres est 5)

29) P(la somme des nombres est impaire)

30) P(la somme des nombres est 9)

31) P(l'un des nombres est 3)

Pour les problèmes 32-33 : Un pot contient quatre billes numérotées 1, 2, 3 et 4. Deux billes sont tirées au hasard AVEC REMPLACEMENT. Cela signifie qu'une fois qu'une bille est tirée, elle est replacée dans le bocal avant que la deuxième bille ne soit sélectionnée. Trouvez les probabilités suivantes.

32) P(la somme des nombres est 5)

33) P(la somme des nombres est 2)


8.1.1 : Exemples d'espaces et probabilités (exercices) - Mathématiques

Lancer un dé ordinaire à six faces est un exemple familier de expérience aléatoire, une action pour laquelle tous les résultats possibles peuvent être répertoriés, mais pour laquelle le résultat réel d'un essai donné de l'expérience ne peut être prédit avec certitude. Dans une telle situation, nous souhaitons attribuer à chaque résultat, comme lancer un deux, un nombre, appelé le probabilité du résultat, qui indique la probabilité que le résultat se produise. De même, nous aimerions attribuer une probabilité à tout un événement, ou un ensemble de résultats, tels que le roulement d'un nombre pair, qui indique la probabilité que l'événement se produise si l'expérience est réalisée. Cette section fournit un cadre pour discuter des problèmes de probabilité, en utilisant les termes que nous venons de mentionner.

Définition

UNE expérience aléatoire est un mécanisme qui produit un résultat défini qui ne peut être prédit avec certitude. Le espace d'échantillonnage L'ensemble de tous les résultats possibles d'une expérience aléatoire. associé à une expérience aléatoire est l'ensemble de tous les résultats possibles. Une événement Tout ensemble de résultats. est un sous-ensemble de l'espace échantillon.

Définition

Un évènement E est dit à se produire sur un essai particulier de l'expérience si le résultat observé est un élément de l'ensemble E.

Exemple 1

Construisez un espace échantillon pour l'expérience qui consiste à lancer une seule pièce de monnaie.

Les résultats pourraient être étiquetés h pour les têtes et t pour les queues. Alors l'espace échantillon est l'ensemble S = < h , t >.

Exemple 2

Construisez un espace échantillon pour l'expérience qui consiste à lancer un seul dé. Trouvez les événements qui correspondent aux phrases "un nombre pair est obtenu" et "un nombre supérieur à deux est obtenu".

Les résultats pourraient être étiquetés en fonction du nombre de points sur la face supérieure du dé. Alors l'espace échantillon est l'ensemble S = < 1,2,3,4,5,6 >.

Les résultats qui sont pairs sont 2, 4 et 6, donc l'événement qui correspond à l'expression « un nombre pair est obtenu » est l'ensemble <2,4,6>, qu'il est naturel de désigner par la lettre E. On écrit E = < 2,4,6 >.

De même l'événement qui correspond à la phrase « un nombre supérieur à deux est tiré » est l'ensemble T = < 3,4,5,6 >, que nous avons noté T.

Une représentation graphique d'un échantillon d'espace et d'événements est un Diagramme de Venn, comme le montre la figure 3.1 « Diagrammes de Venn pour deux espaces d'échantillonnage » pour la note 3.6 « Exemple 1 » et la note 3.7 « Exemple 2 ». En général, l'espace échantillon S est représenté par un rectangle, les résultats par des points à l'intérieur du rectangle et les événements par des ovales qui entourent les résultats qui les composent.

Figure 3.1 Diagrammes de Venn pour deux exemples d'espaces

Exemple 3

Une expérience aléatoire consiste à lancer deux pièces.

  1. Construisez un espace échantillon pour la situation où les pièces sont indiscernables, comme deux centimes neufs.
  2. Construisez un espace échantillon pour la situation où les pièces sont distinguables, comme l'une un penny et l'autre un nickel.
  1. Une fois les pièces lancées, on voit soit deux têtes, qui pourraient être étiquetées 2 h , deux queues, qui pourraient être étiquetées 2 t , soit des pièces qui diffèrent, qui pourraient être étiquetées . Ainsi, un espace échantillon est S = < 2 h , 2 t , d >.
  2. Puisque nous pouvons distinguer les pièces, il y a maintenant deux façons pour les pièces de différer : les têtes de penny et les queues de nickel, ou les queues de penny et les têtes de nickel. Nous pouvons étiqueter chaque résultat comme une paire de lettres, dont la première indique comment le centime a atterri et la seconde indique comment le nickel a atterri. Un espace échantillon est alors S ′ = < h h , h t , th , t t >.

Un dispositif qui peut être utile pour identifier tous les résultats possibles d'une expérience aléatoire, en particulier celle qui peut être considérée comme procédant par étapes, est ce qu'on appelle un diagramme en arbre. Il est décrit dans l'exemple suivant.

Exemple 4

Construisez un espace échantillon qui décrit toutes les familles de trois enfants selon le sexe des enfants par rapport au rang de naissance.

Deux des résultats sont « deux garçons puis une fille », que nous pourrions désigner par b b g , et « une fille puis deux garçons », que nous désignerions par g b b . De toute évidence, il existe de nombreux résultats, et lorsque nous essayons de tous les lister, il peut être difficile d'être sûr de les avoir tous trouvés à moins de procéder systématiquement. L'arborescence illustrée à la figure 3.2 « Schéma en arbre pour les familles de trois enfants » donne une approche systématique.

Figure 3.2 Diagramme en arbre pour les familles de trois enfants

Le diagramme a été construit comme suit. Il y a deux possibilités pour le premier enfant, garçon ou fille, nous dessinons donc deux segments de droite partant d'un point de départ, l'un se terminant par un b pour "garçon" et l'autre se terminant par un g pour filles." Pour chacune de ces deux possibilités pour le premier enfant il y a deux possibilités pour le deuxième enfant, « garçon » ou « fille », donc à partir de chacun des b et g nous dessinons deux segments de ligne, un segment se terminant par un b et un dans un g. Pour chacun des quatre points d'arrivée maintenant dans le diagramme, il y a deux possibilités pour le troisième enfant, nous répétons donc le processus une fois de plus.

Les segments de ligne sont appelés branches de l'arbre. Le point d'extrémité droit de chaque branche est appelé un nœud. Les nœuds à l'extrême droite sont les nœuds finaux à chacun correspond un résultat, comme le montre la figure.

À partir de l'arbre, il est facile de lire les huit résultats de l'expérience, de sorte que l'espace d'échantillonnage est, en lisant du haut vers le bas des nœuds finaux de l'arbre,


8.1.1 : Exemples d'espaces et probabilités (exercices) - Mathématiques

Le cours introduira la notion de base de la théorie des probabilités et son application aux statistiques. L'accent sera mis sur la discussion des candidatures.

Le texte qui sera utilisé est :

Jay L. Devore, Probabilités et statistiques, 8e ou 9e éd., Thomson

Le programme peut être trouvé ici.

Il y en aura deux à mi-parcours.

L'exercice répertorié concerne la collecte de matériel informatique. Je vais les récupérer toutes les deux semaines et les exercices de grade 2 ou 3 parmi ceux assignés. En cas de différences entre la 9e et la 8e édition du livre j'indiquerai entre crochets le numéro relatif à la 8e édition.

La note finale sera basée sur les règles suivantes : 45% final, 40% midterm, 15% HW. La courbure sera faite sur le résultat final.

Le premier semestre aura lieu mercredi 17 février et la seconde sur mercredi 30 mars.

Arguments couverts.

  • Axiomes, interprétations et propriétés des probabilités
  • Distributions de probabilité pour les variables aléatoires discrètes
  • Exemple de variables aléatoires discrètes
  • Variables aléatoires continues et fonctions de densité de probabilité
  • Exemple de variables aléatoires continues
  • Le théorème central limite
  • Variables aléatoires distribuées conjointement
  • Population, échantillon et processus
  • Estimation ponctuelle
  • Intervalles statistiques
  • Test d'hypothèses
  • Régression linéaire simple (si le temps le permet)
  • 1.1 (Population, échantillon et processus)
  • 1.2 (Méthodes illustrées et tabulaires en statistiques descriptives)
  • 1.3 (Mesure de l'emplacement)
  • 1.4 (Mesure de la variabilité)

Premier matériel dû le 25 janvier.

  • 2.1 (Exemples d'espaces et d'événements)
  • 2.2 (Axiomes, interprétations et propriétés des probabilités)
  • 3.1 (Variables aléatoires)
  • 3.2 (Distributions de probabilité pour les variables aléatoires discrètes)
  • 3.3 (Valeurs attendues de la variable aléatoire discrète)
  • (3.1) 6, 8, 10
  • (3.2) 16, 23, 27
  • (3.3) 29, 35 39, 42
  • 3.4 (La distribution de probabilité binomiale)
  • 3.5 (Distribution hypergéométrique)
  • 3.6 (La distribution de probabilité de Poisson)

Le premier semestre aura lieu le 17 février. Le semestre couvrira le matériel jusqu'à la section 3.6.

Matériel de préparation pour le premier semestre :

Sixième et septième semaines

  • 4.1 (Variables aléatoires continues et fonctions de densité de probabilité)
  • 4.2 (Fonctions de distribution cumulative et valeurs attendues)
  • 4.3 (La distribution normale)
  • 4.4 (La distribution exponentielle)
  • 5.1 (Variables aléatoires distribuées conjointement)
  • 5.2 (valeurs attendues, covariance et corrélation)
  • 5.5 (La distribution d'une combinaison linéaire)
  • 5.3 (Statistiques et leur répartition)
  • 5.4 (La distribution de la moyenne de l'échantillon)
  • (5.3) 37, 41, 42
  • (5.4) 48, 49, 53, 56

Matériel de préparation pour le second semestre :

Cinquième HW dû le 4 avril. Les exercices sont ceux énumérés ci-dessus pour le chapitre 5.

Voici le texte de la Maquillage facultatif pour le deuxième moyen terme. Vérifiez-le et laissez-moi savoir si vous avez des questions. C'est dû Lundi 11 au soir. Vous pouvez le soumettre en classe, par courriel ou en le glissant sous la porte de mon bureau. Votre soumission doit contenir le première page signée


3.3 : Probabilité conditionnelle et événements indépendants

De base

  1. Q3.3.1Pour deux événements (A) et (B), (P(A)=0.73, P(B)=0.48 ext P(Acap B)=0.29).
    1. Trouvez (P(Amid B)).
    2. Trouvez (P(Bmid A)).
    3. Déterminez si (A) et (B) sont indépendants.
    1. Trouvez (P(Amid B)).
    2. Trouvez (P(Bmid A)).
    3. Déterminez si (A) et (B) sont indépendants.
    1. (P(Acap B)).
    2. Trouvez (P(Amid B)).
    3. Trouvez (P(Bmid A)).
    1. (P(Acap B)).
    2. Trouvez (P(Amid B)).
    3. Trouvez (P(Bmid A)).
    1. Trouvez (P(Amid B)).
    2. Trouvez (P(Bmid A)).
    1. Trouvez (P(Amid B)).
    2. Trouvez (P(Bmid A)).
    1. La probabilité que le jet soit pair.
    2. La probabilité que le résultat soit pair, étant donné que ce n'est pas un deux.
    3. La probabilité que le résultat soit pair, étant donné que ce n'est pas un un.
    1. La probabilité que le deuxième lancer soit face.
    2. La probabilité que le deuxième lancer soit face, étant donné que le premier lancer est face.
    3. La probabilité que le deuxième lancer soit face, étant donné qu'au moins un des deux lancers est face.
    1. La probabilité que la carte tirée soit rouge.
    2. La probabilité que la carte soit rouge, étant donné qu'elle n'est pas verte.
    3. La probabilité que la carte soit rouge, étant donné qu'elle n'est ni rouge ni jaune.
    4. La probabilité que la carte soit rouge, étant donné qu'il ne s'agit pas d'un quatre.
    1. La probabilité que la carte tirée soit un deux ou un quatre.
    2. La probabilité que la carte soit un deux ou un quatre, étant donné que ce n'est pas un un.
    3. La probabilité que la carte soit un deux ou un quatre, étant donné qu'il s'agit soit d'un deux, soit d'un trois.
    4. La probabilité que la carte soit un deux ou un quatre, étant donné qu'elle est rouge ou verte.
    1. (P(A), P(R), P(Acap B)).
    2. Sur la base de la réponse à (a), déterminez si oui ou non les événements (A) et (R) sont indépendants.
    3. Sur la base de la réponse à (b), déterminez si oui ou non (P(Amid R)) peut être prédit sans aucun calcul. Si oui, faites la prédiction. Dans tous les cas, calculez (P(Amid R)) en utilisant la règle de probabilité conditionnelle.
    1. (P(A), P(R), P(Acap B)).
    2. Sur la base de la réponse à (a), déterminez si oui ou non les événements (A) et (R) sont indépendants.
    3. Sur la base de la réponse à (b), déterminez si oui ou non (P(Amid R)) peut être prédit sans aucun calcul. Si oui, faites la prédiction. Dans tous les cas, calculez (P(Amid R)) en utilisant la règle de probabilité conditionnelle.
    1. (P(Acap B)).
    2. (P(Acap B)), avec l'information supplémentaire que (A) et (B) sont indépendants.
    3. (P(Acap B)), avec l'information supplémentaire que (A) et (B) s'excluent mutuellement.
    1. (P(Acap B)).
    2. (P(Acap B)), avec l'information supplémentaire que (A) et (B) sont indépendants.
    3. (P(Acap B)), avec l'information supplémentaire que (A) et (B) s'excluent mutuellement.
    1. (P(Acap Bcap C)).
    2. (P(A^ccap B^ccap C^c)).
    1. (P(Acap Bcap C)).
    2. (P(A^ccap B^ccap C^c)).

    Applications

    Q3.3.17

    L'espace échantillon qui décrit toutes les familles de trois enfants selon le sexe des enfants par rapport au rang de naissance est [S=] Dans l'expérience de sélection aléatoire d'une famille de trois enfants, calculez chacune des probabilités suivantes, en supposant que tous les résultats sont également probables.

    1. La probabilité que la famille compte au moins deux garçons.
    2. La probabilité que la famille compte au moins deux garçons, étant donné que tous les enfants ne sont pas des filles.
    3. La probabilité qu'au moins un enfant soit un garçon.
    4. La probabilité qu'au moins un enfant soit un garçon, étant donné que le premier-né est une fille.

    Q3.3.18

    Le tableau de contingence à double entrée suivant donne la répartition de la population dans un lieu particulier en fonction de l'âge et du nombre d'infractions au déplacement de véhicules au cours des trois dernières années :

    Âge Infractions
    (0) (1) (2+)
    Moins de 21) (0.04) (0.06) (0.02)
    (21-40) (0.25) (0.16) (0.01)
    (41-60) (0.23) (0.10) (0.02)
    (60+) (0.08) (0.03) (0.00)

    Une personne est choisie au hasard. Trouvez les probabilités suivantes.

    1. La personne a moins de (21).
    2. La personne a commis au moins deux infractions au cours des trois dernières années.
    3. La personne a commis au moins deux infractions au cours des trois dernières années, étant donné qu'elle a moins de (21).
    4. La personne a moins de (21), étant donné qu'elle a commis au moins deux infractions au cours des trois dernières années.
    5. Déterminez si les événements &ldquotla personne est sous (21)&rdquo et &ldquotla personne a commis au moins deux violations au cours des trois dernières années&rdquo sont indépendants ou non.

    Q3.3.19

    Le tableau de contingence à double entrée suivant donne la répartition de la population dans un lieu particulier selon l'affiliation à un parti ((A, B, C, ext)) et avis sur une émission obligataire :

    Affiliation Avis
    Faveurs S'oppose Indécis
    (UNE) (0.12) (0.09) (0.07)
    (B) (0.16) (0.12) (0.14)
    (C) (0.04) (0.03) (0.06)
    Rien (0.08) (0.06) (0.03)

    Une personne est choisie au hasard. Trouvez chacune des probabilités suivantes.

    1. La personne est favorable à l'émission d'obligations.
    2. La personne est favorable à l'émission d'obligations, étant donné qu'elle est affiliée au parti (A).
    3. La personne est favorable à l'émission d'obligations, étant donné qu'elle est affiliée au parti (B).

    Q3.3.20

    Le tableau de contingence à double entrée suivant donne la répartition de la population de clients d'une épicerie selon le nombre d'articles achetés et selon que le client a effectué ou non un achat impulsif à la caisse :

    Nombre d'objets Achat impulsif
    Fait Pas fait
    Peu (0.01) (0.19)
    Beaucoup (0.04) (0.76)

    Un mécène est choisi au hasard. Trouvez chacune des probabilités suivantes.

    1. Le client a fait un achat impulsif.
    2. Le client a fait un achat impulsif, étant donné que le nombre total d'articles achetés était important.
    3. Déterminez si les événements &ldquofausses achats&rdquo et &ldquofait un achat impulsif en caisse&rdquo sont indépendants.

    Q3.3.21

    Le tableau de contingence à double entrée suivant donne la répartition de la population d'adultes dans une localité donnée selon le type d'emploi et le niveau d'assurance-vie :

    Type d'emploi Niveau d'assurance
    Faible Moyen Haute
    Non qualifié (0.07) (0.19) (0.00)
    Semi-qualifiés (0.04) (0.28) (0.08)
    Qualifié (0.03) (0.18) (0.05)
    Professionnel (0.01) (0.05) (0.02)

    Un adulte est choisi au hasard. Trouvez chacune des probabilités suivantes.

    1. La personne a un niveau élevé d'assurance-vie.
    2. La personne a un niveau élevé d'assurance-vie, étant donné qu'elle n'a pas de poste professionnel.
    3. La personne a un niveau élevé d'assurance-vie, étant donné qu'elle a un poste professionnel.
    4. Déterminez si les événements &ldquo a un niveau élevé d'assurance-vie&rdquo et &ldquoa une position professionnelle&rdquo sont indépendants.

    Q3.3.22

    L'espace d'échantillon des résultats également probables pour l'expérience de lancer deux dés équitables est [egin 11 & 12 & 13 & 14 & 15 & 16 21 & 22 & 23 & 24 & 25 & 26 31 & 32 & 33 & 34 & 35 & 36 41 & 42 & 43 & 44 & 45 & 46 51 & 52 & 53 & 54 & 55 & 56 61 & 62 & 63 & 64 & 65 & 66 end] Identifier les événements ( ext).

    1. Trouvez (P(N)).
    2. Trouvez (P(Nmid F)).
    3. Trouvez (P(Nmid T)).
    4. Déterminez à partir des réponses précédentes si les événements (N) et (F) sont indépendants, que (N) et (T) le soient ou non.

    Q3.3.23

    Le sensibilité d'un test de dépistage de drogue est la probabilité que le test soit positif lorsqu'il est administré à une personne qui a effectivement pris le médicament. Supposons qu'il existe deux tests indépendants pour détecter la présence d'un certain type de drogues interdites chez les athlètes. L'un a une sensibilité (0,75) l'autre a une sensibilité (0,85). Si les deux sont appliqués à un athlète qui a pris ce type de drogue, quelle est la probabilité que sa consommation passe inaperçue ?

    Q3.3.24

    Un homme a deux lumières dans son puits pour empêcher les tuyaux de geler en hiver. Il vérifie les lumières tous les jours. Chaque lumière a une probabilité (0.002) de s'éteindre avant d'être vérifiée le lendemain (indépendamment de l'autre lumière).

    1. Si les lumières sont câblées en parallèle, l'une continuera à briller même si l'autre grille. Dans cette situation, calculez la probabilité qu'au moins une lumière continue de briller pendant les (24) heures complètes. A noter la fiabilité considérablement accrue du système à deux ampoules par rapport à celui d'une seule ampoule.
    2. Si les lumières sont câblées en série, aucune ne continuera à briller même si une seule d'entre elles s'éteint. Dans cette situation, calculez la probabilité qu'au moins une lumière continue de briller pendant les (24) heures complètes. A noter la fiabilité légèrement diminuée du système à deux ampoules par rapport à celui d'une seule ampoule.

    Q3.3.25

    Un comptable a observé que (5\%) de toutes les copies d'un formulaire particulier en deux parties ont une erreur dans la partie I, et (2\%) ont une erreur dans la partie II. Si les erreurs se produisent indépendamment, trouvez la probabilité qu'un formulaire sélectionné au hasard soit exempt d'erreurs.

    Q3.3.26

    Une boîte contient (20) vis de taille identique, mais (12) zinguées et (8) non. Deux vis sont choisies au hasard, sans remplacement.

    1. Trouvez la probabilité que les deux soient zingués.
    2. Trouvez la probabilité qu'au moins l'un d'eux soit zingué.

    Exercices supplémentaires

    Q3.3.27

    Les événements (A) et (B) s'excluent mutuellement. Trouvez (P(Amid B)).

    Q3.3.28

    Le conseil municipal d'une ville donnée est composé de cinq membres du parti (A), de quatre membres du parti (B) et de trois indépendants. Deux membres du conseil sont choisis au hasard pour former un comité d'enquête.

    1. Trouvez la probabilité que les deux soient de la partie (A).
    2. Trouvez la probabilité qu'au moins un soit un indépendant.
    3. Trouvez la probabilité que les deux aient des affiliations partisanes différentes (c'est-à-dire pas les deux (A), pas les deux (B) et pas les deux indépendants).

    Q3.3.29

    Un basketteur réussit (60\%) des lancers francs qu'il tente, sauf que s'il vient d'essayer et de rater un lancer franc alors ses chances d'en faire un deuxième descendent à (30\%) . Supposons qu'il vient de recevoir deux lancers francs.

    1. Trouvez la probabilité qu'il fasse les deux.
    2. Trouvez la probabilité qu'il en fasse au moins un. (Un diagramme en arbre pourrait aider.)

    Q3.3.30

    Un économiste souhaite connaître la proportion (p) de la population des contribuables individuels qui ont volontairement soumis des informations frauduleuses sur une déclaration d'impôt sur le revenu. Pour vraiment garantir l'anonymat des contribuables dans une enquête aléatoire, les contribuables interrogés reçoivent les instructions suivantes.

    1. Lancer une pièce.
    2. Si la pièce tombe sur face, répondez &ldquoOui&rdquo à la question &ldquoAvez-vous déjà soumis des informations frauduleuses sur une déclaration de revenus ?&rdquo même si ce n'est pas le cas.
    3. Si la pièce tombe pile, donnez une réponse véridique &ldquoOui&rdquo ou &ldquoNon&rdquo à la question &ldquoAvez-vous déjà soumis des informations frauduleuses sur une déclaration de revenus ?&rdquo

    Le questionneur ne sait pas comment la pièce a atterri, il ne sait donc pas si une réponse &ldquoYes&rdquo est la vérité ou si elle n'est donnée qu'à cause du tirage au sort.


    Statistiques multivariées

    Une façon courante de développer une règle discriminante est de commencer par supposer (ou estimer) une distribution différente pour (mathbf xin mathbb R^p) pour chaque population. Par exemple, supposons que les observations de la population (j) aient une distribution avec pdf (f_j(mathbf x)) , pour (j=1,ldots , g) .

    Nous commencerons par supposer que les différentes distributions de population (f_1(mathbf x), ldots, f_g(mathbf x)) sont connu, et en particulier, qu'il s'agit de distributions normales multivariées.

    Exemple 8.2 Considérons le cas univarié avec (g=2) où (Pi_1) est la distribution (N(mu_1,sigma_1^2)) et (Pi_2) est la (N( mu_2,sigma_2^2)). La règle discriminante ML alloue (x) à (Pi_1) si et seulement si [ f_1(x) > f_2(x) , ] ce qui équivaut à [ frac<1><(2 pisigma_1^2)^<1/2>> exp left(-frac<1> <2sigma_1^2>(x-mu_1)^2 ight) > frac<1><( 2pisigma_2^2)^<1/2>> exp left(-frac<1> <2sigma_2^2>(x-mu_2)^2 ight). ] La collecte des termes sur le côté gauche (LHS) donne [egin && qquad frac exp left(-frac<1> <2sigma_1^2>(x - mu_1)^2 +frac<1> <2sigma_2^ 2>(x - mu_2)^2 ight)> 1 &iff& qquad log left(frac ight)-frac<1> <2sigma_1 ^2>(x - mu_1)^2 + frac<1> <2sigma_2^2>(x - mu_2)^2 > 0 & iff & qquad x^2 left(frac <1> - frac<1> ight) + x left(frac<2 mu_1> - frac<2 mu_2> ight)+ frac - frac + 2 log frac < sigma_1>> 0. ag <8.2>end] Supposons, par exemple, que (mu_1 = sigma_1 = 1) et (mu_2 = sigma_2 = 2) , alors cela se réduit à l'expression quadratique [ -frac<3><4> x^2 + x + 2 log 2 > 0.] Supposons que notre nouvelle observation soit (x=0) , disons. Alors le LHS est (2 log 2) qui est supérieur à zéro et donc nous allouerions (x) à la population 1.

    En utilisant la formule de l'équation quadratique, nous trouvons que (f_1(x)=f_2(x)) lorsque [x = frac<-1 pm sqrt<1+6 log 2>> <-3/2> = frac<2> <3>pm frac<2> <3>sqrt<1 + 6 log 2>,] soit à (x = -0,85) et (x = 2,18) . Notre règle discriminante est donc d'allouer (x) à (Pi_1) si (-0.85 < x < 2.18) et de l'allouer à (Pi_2) sinon. Ceci est illustré à la figure 8.2.

    Figure 8.2 : Règle discriminante pour l'exemple des deux gaussiennes.

    Notez que cela n'a pas abouti à des régions discriminantes convexes connectées (mathcal_je) . C'est parce que nos fonctions discriminantes n'étaient pas des fonctions linéaires de (mathbf x) - nous n'avons donc pas trouvé de règle discriminante linéaire.

    Notez également que si (sigma_1=sigma_2) alors le terme (x^2) dans l'équation (8.2) s'annule, et nous nous retrouvons avec une règle discriminante linéaire. Par exemple, si (sigma_2=1) avec les autres paramètres comme précédemment, alors on classe (x) dans la population 1 si

    [ 2x left(mu_1 - mu_2 ight)+ mu_2^2 - mu_1^2 = -2x+3 > 0. ] c'est-à-dire si (x<frac<3><2>) . Dans ce cas, nous obtenons des régions discriminantes (mathcal_j) qui sont connexes et convexes.

    Figure 8.3 : Règle discriminante pour l'exemple des deux gaussiennes lorsque sigma_2=1

    8.1.1 Populations normales multivariées

    Considérons maintenant le cas de (g) populations normales multivariées. Nous supposerons que pour la population (k) [mathbf xsim N_p(<oldsymbol>_k, oldsymbol)] c'est-à-dire que nous laissons varier la moyenne de chaque population , mais ont supposé une matrice de covariance commune entre les groupes. Nous appelons le (<oldsymbol>_k) le population signifie ou alors centroïdes.

    Proposition 8.2 Si les cas de la population (Pi_k) ont une distribution (N_p(<oldsymbol>_k,oldsymbol)), alors la règle discriminante ML est [d(mathbf x )= argmin_(mathbf x-<oldsymbol>_k)^ op oldsymbol^ <-1>(mathbf x-<oldsymbol>_k).]

    De manière équivalente, si (delta_k(mathbf x) = 2<oldsymbol>_k^ op oldsymbol^ <-1>mathbf x- <oldsymbol>_k ^ op Sigma^ <-1><oldsymbol>_k) . Alors [d(mathbf x) = arg max delta_k(mathbf x).] C'est-à-dire c'est une règle discriminante linéaire.

    Preuve. La (k) ième vraisemblance est [egin f_k(mathbfx) = | 2 pi oldsymbol|^ <-1/2>exp left(-frac<1> <2>(mathbf x- <oldsymbol>_k)^ op boldsymbol^ <-1>(mathbf x- <oldsymbol>_k) ight). ag <8.3>end] Ceci est maximisé lorsque l'exposant est minimisé, en raison du signe moins dans l'exposant et parce que (oldsymbol) est défini positif.

    [commencer (mathbf x-<oldsymbol>_k)^ op oldsymbol^ <-1>(mathbf x-<oldsymbol>_k) &= mathbf x^ op oldsymbol^<-1>mathbf x -2<oldsymbol>_k^ op oldsymbol^<-1>mathbf x+<oldsymbol>_k^ op oldsymbol^<-1><oldsymbol>_k &= mathbf x^ op oldsymbol^<-1>mathbf x -delta_k(mathbf x) end] Ainsi, [arg min_k (mathbf x-<oldsymbol>_k)^ op oldsymbol^ <-1>(mathbf x-<oldsymbol>_k) = argmax_k delta_k(mathbf x)] as (mathbf x^ op oldsymbolmathbf x) ne dépend pas de (k) .

    8.1.2 L'exemple de règle discriminante ML

    Pour utiliser la règle discriminante ML, nous devons connaître les paramètres du modèle pour chaque groupe, (<oldsymbol>_k) , ainsi que la matrice de covariance commune (oldsymbol) . Nous ne connaîtrons généralement pas ces paramètres et devons plutôt les estimer à partir entraînement Les données. Nous substituons ensuite ces estimations dans la règle discriminante. Les données d'entraînement se composent généralement d'échantillons (mathbf x_<1,k>, ldots, mathbf x_) connu pour être de la population (Pi_k) , où (n_k) est le nombre d'observations de la population (Pi_k) .

    Nous estimons les moyennes de population inconnues par la moyenne d'échantillon pour chaque population [hat<<oldsymbol>>_k =frac<1> somme_^ mathbf x_.]

    Pour estimer la matrice de covariance partagée, (oldsymbol) , commencez par calculer l'échantillon de matrice de covariance pour le (k) ème groupe : [mathbf S_j=frac<1>somme_^ (mathbf x_-hat<<oldsymbol>>_j)(mathbf x_-hat<<oldsymbol>>_j)^ op]

    Puis [egin widehat<oldsymbol> = frac<1> somme_^g n_k mathbf S_k ag <8.4>end] est une estimation non biaisée de (oldsymbol) où (n = n_1 + n_2 + ldots + n_g) . Notez que ce n'est pas la même chose que la matrice de covariance totale (c'est-à-dire en ignorant les étiquettes de classe).

    L'échantillon de règle discriminante ML est ensuite défini en substituant ces estimations en 8.2.

    0$ où $hat <a>= widehat<Sigma>^ <-1>(ar<mu>_1 - ar<mu>_2)$, $hat <h>= frac<1> <2>(ar<mu>_1 + ar<mu>_2)$ et $widehat<Sigma>$, l'estimation groupée de $Sigma$, est donnée par $ widehat <Sigma>= frac<1> (n_1 S_1 + n_2 S_2 ).$ -->

    8.1.3 Deux populations

    Si nous pensons à la situation où (oldsymbol= mathbf I) , alors nous pouvons donner un sens à cette règle géométriquement. Si la variance des deux populations est la matrice d'identité, alors nous pouvons simplement classer à la moyenne/centroïde de population la plus proche, et la frontière de décision est donc la médiatrice des deux centroïdes. En outre,

    (mathbf a= <oldsymbol>_1-<oldsymbol>_2) est le vecteur entre les deux centroïdes de population, et sera donc perpendiculaire à la frontière de décision.

    Une équation pour la frontière de décision est (mathbf a^ op (mathbf x- mathbf h)=0) .

    En pensant au produit scalaire, on voit que (mathbf a^ op (mathbf x- mathbf h)) est proportionnel au cosinus de l'angle entre (mathbf a) et (mathbf x-mathbf h) . Le point (mathbf x) sera plus proche de (<oldsymbol>_1) que (<oldsymbol>_2) si l'angle entre (mathbf a ) et (mathbf x-mathbf h) est compris entre (-90^circ) et (90^circ) , ou de manière équivalente, si le cosinus de l'angle est supérieur à 0.

    Ainsi on classe (mathbf x) à la population 1 si (mathbf a^ op (mathbf x- mathbf h)>0) , et à la population 2 si (mathbf a^ op ( mathbf x- mathbf h)<0) .

    Cette situation est illustrée à la figure 8.4.

    Si nous avons plus de (2) populations, alors pour (oldsymbol=mathbf I) , les frontières de décision sont les médiatrices entre les centroïdes de population (le (<oldsymbol>_i) ) et nous classons simplement au centroïde le plus proche.

    Lorsque (oldsymbol ot =mathbf I) , nous considérons (oldsymbol) comme un espace déformant. Au lieu de mesurer la distance à l'aide de la distance euclidienne, nous ajustons plutôt les distances pour tenir compte de (oldsymbol) . Les frontières de décision ne sont alors plus les médiatrices des centres de gravité.

    Exemple 2

    Considérons le cas bivarié ( (p=2) ) avec des groupes (g=2), où (Pi_1) est le (N_2(<oldsymbol>_1,mathbf I_2) ) et (Pi_2) est la distribution (N_2(<oldsymbol>_2,mathbf I_2)). Supposons (<oldsymbol>_1 = egin c 0 end) et (<oldsymbol>_2 = egin -c 0 end) pour une constante (c>0) . Ici, (mathbf a= oldsymbol^ <-1>(<oldsymbol>_1 - <oldsymbol>_2) = egin 2c 0 fin) et (mathbf h= frac<1><2>( <oldsymbol>_1 + <oldsymbol>_2 ) = egin 0 0 fin) .

    La règle discriminante ML alloue (mathbf x) à (Pi_1) si (mathbf a^ op (mathbf x- mathbf h) = mathbf a^ op mathbf x> 0) . Si nous écrivons (mathbf x= egin x_1 x_2 end) puis (mathbf a^ op mathbf x= 2cx_1) , qui est supérieur à zéro si (x_1 > 0) . Par conséquent, nous allouons (mathbf x) à (Pi_1) si (x_1 > 0) et allouons (mathbf x) à (Pi_2) si (x_1 leq 0) .

    Figure 8.4 : LDA lorsque la matrice de covariance est l'identité

    Exemple 3

    Généralisons maintenant l'exemple précédent, en ne faisant aucune hypothèse sur (oldsymbol) , mais en supposant toujours (<oldsymbol>_1=-<oldsymbol>_2) . Si nous écrivons (mathbf a= egin a_1 a_2 end) et (mathbf h= frac<1><2>( <oldsymbol>_1 + <oldsymbol>_2 ) = oldsymbol 0) . Ensuite, la règle discriminante ML alloue (mathbf x) à (Pi_1) if (mathbf a^ op mathbf x> 0) . Si nous écrivons (mathbf x= egin x y fin) alors la frontière séparant (mathcal R_1) et (mathcal R_2) est donnée par (mathbf a^ op mathbf x= egin a_1 & a_2 end commencer x y fin = a_1 x + a_2 y = 0) , soit (y = -frac X) . Il s'agit d'une ligne droite passant par l'origine avec un gradient (-a_1/a_2) .

    Si la variance de la composante (y) est très petite par rapport à la variance de la composante (x), alors nous commençons à classer uniquement sur la base de (y) . Par exemple, si (<oldsymbol>_1 =egin2 1 fin) et (oldsymbol= egin1&0.09 .09&0.1 fin) on trouve (mathbf a= egin2.39 17.8 fin) , ce qui donne la ligne (y = -0,13 x) . C'est-à-dire une ligne qui se rapproche de l'horizontale.

    8.1.4 Plus de deux populations

    Lorsque (g>2) , les limites de la règle ML seront linéaires par morceaux. Dans les exercices, vous regarderez un exemple avec 3 populations en deux dimensions.


    Tableaux de fréquence Minitab Express &ndash

    To create a frequency table of dog ownership in Minitab Express:

    1. Open the data set:
      • FALL2016STDATA.MTW
    2. Sur un ordinateur: In the menu bar select STATISTICS > Describe > Tally
    3. Sur un Mac: In the menu bar select Statistics > Summary Statistics > Tally
    4. Double click the variable Chien in the box on the left to insert the variable into the Variable boîte
    5. Under Statistics, check Comptes
    6. Cliquez sur OK

    This should result in the following frequency table:

    Pointage
    Chien Compter
    Non 252
    Oui 272
    N= 524
    *= 1

    Select your operating system below to see a step-by-step guide for this example.


    8.1.1: Sample Spaces and Probability (Exercises) - Mathematics

    This chapter covers the most basic definitions of probability theory and explores some fundamental properties of the probability function.

    Our starting point is the concept of an abstract random experiment. This is an experiment whose outcome is not necessarily determined before it is conducted. Examples include flipping a coin, the outcome of a soccer match, and the weather. The set of all possible outcomes associated with the random experiment is called the sample space. Events are subsets of the sample space, or in other words sets of possible outcomes. The probability function assigns real values to events in a way that is consistent with our intuitive understanding of probability. Formal definitions appear below.

    A sample space can be finite, for example [Omega=<1,ldots,10>] in the experiment of observing a number from 1 to 10. Or $Omega$ can be countably-infinite, for example [Omega=<0,1,2,3,ldots>] in the experiment of counting the number of phone calls made on a specific day. A sample space may also be uncountably infinite, for example [Omega=] in the experiment of measuring the height of a passer-by.

    The notation $mathbb$ corresponds to the natural numbers $<1,2,3,ldots>$, and the notation $mathbbcup<0>$ corresponds to the set $<0,1,2,3,ldots>$. The notation $R$ corresponds to the real numbers and the notation $$ corresponds to the non-negative real numbers. See Chapter A in the appendix for an overview of set theory, including the notions of a power set and countably infinite and unconuntably infinite sets.

    In the examples above, the sample space contained unachievable values (number of people and height are bounded numbers). A more careful definition could have been used, taking into account bounds on the number of potential phone calls or potential height values. For the sake of simplicity, we often use simpler sample spaces containing some unachievable outcomes. This is not a significant problem, since we can later assign zero probability to such values.

    In particular, the empty set $emptyset$ and the sample space $Omega$ are events. Figure 1.2.1 shows an example of a sample space $Omega$ and two events $A,BsubsetOmega$ that are neither $emptyset$ nor $Omega$. The R code below shows all possible events of an experiment with $Omega=$. There are $2^<|Omega|>$ such sets, assuming $Omega$ is finite (see Chapter A on set theory for more information on the power set).

    For an event $E$, the outcome of the random experiment $omegainOmega$ is either in E $(omegain E)$ or not in $E$ $(omega otin E)$. In the first case, we say that the event $E$ occurred, and in the second case we say that the event $E$ did not occur. $Acup B$ is the event of either $A$ or $B$ occurring and $Acap B$ is the event of both $A$ and $B$ occurring. The complement $A^c$ (in the complement, the universal set is taken to be $Omega$: $A^c=Omegasetminus A)$ represents the event that $A$ did not occur. If the events $A,B$ are disjoint $(Acap B=emptyset)$, the two events cannot happen at the same time, since no outcome of the random experiment belongs to both $A$ and $B$. If $Asubset B$, then $B$ occurring implies that $A$ occurs as well.


    3.6 Variance and standard deviation

    The variance of a random variable measures the spread of the variable around its expected value. Rvs with large variance can be quite far from their expected values, while rvs with small variance stay near their expected value. The standard deviation is simply the square root of the variance. The standard deviation also measures spread, but in more natural units which match the units of the random variable itself.

    Let (X) be a random variable with expected value (mu = E[X]) . Le variance of (X) is defined as [ ext(X) = E[(X - mu)^2] ] The écart-type of (X) is written (sigma(X)) and is the square root of the variance: [ sigma(X) = sqrt< ext(X)> ]

    Note that the variance of an rv is always positive (in the French sense 11 ), as it is the integral or sum of a positive function.

    The next theorem gives a formula for the variance that is often easier than the definition when performing computations.

    Applying linearity of expected values (Theorem 5.8) to the definition of variance yields: [ egin E[(X - mu)^2] &= E[X^2 - 2mu X + mu^2] &= E[X^2] - 2mu E[X] + mu^2 = E[X^2] - 2mu^2 + mu^2 &= E[X^2] - mu^2, end ] as desired.

    Let (X sim ext(3,0.5)) . Here (mu = E[X] = 1.5) . In Example 5.35, we saw that (E[(X-1.5)^2] = 0.75) . Then ( ext(X) = 0.75) and the standard deviation is (sigma(X) = sqrt <0.75>approx 0.866) . We can check both of these using simulation and the built in R functions var and sd :

    Compute the variance of (X) if the pdf of (X) is given by (f(x) = e^<-x>) , (x > 0) .

    We have already seen that (E[X] = 1) and (E[X^2] = 2) (Example 5.37). Therefore, the variance of (X) is [ ext(X) = E[X^2] - E[X]^2 = 2 - 1 = 1. ] The standard deviation (sigma(X) = sqrt <1>= 1) . We interpret of the standard deviation (sigma) as a spread around the mean, as shown in this picture:

    Compute the standard deviation of the uniform random variable (X) on ([0,1]) . [ commencer exte(X) &= E[X^2] - E[X]^2 = int_0^1x^2 cdot 1, dx - left(frac<1><2> ight)^2 &= frac<1> <3>- frac<1> <4>= frac<1> <12>approx 0.083. finir ] So the standard deviation is (sigma(X) = sqrt <1/12>approx 0.289) . Shown as a spread around the mean of 1/2:

    For many distributions, most of the values will lie within one standard deviation of the mean, i.e. within the spread shown in the example pictures. Almost all of the values will lie within 2 standard deviations of the mean. What do we mean by “almost all”? Well, 85% would be almost all. 15% would not be almost all. This is a very vague rule of thumb. Chebychev’s Theorem is a more precise statement. It says in particular that the probability of being more than 2 standard deviations away from the mean is au plus 25%.

    Sometimes, you know that the data you collect will likely fall in a certain range of values. For example, if you are measuring the height in inches of 100 randomly selected adult males, you would be able to guess that your data will very likely lie in the interval 60-84. You can get a rough estimate of the standard deviation by taking the expected range of values and dividing by 6 in this case it would be 24/6 = 4. Here, we are using the heuristic that it is very rare for data to fall more than three standard deviations from the mean. This can be useful as a quick check on your computations.

    Unlike expected value, variance and standard deviation are not linear. However, variance and standard deviation do have scaling properties, and variance does distribute over sums in the special case of independent random variables:

    Let (X) be a rv and (c) a constant. Then [ egin exte(cX) &= c^2 ext(X) sigma(cX) &= c sigma(X) end ]

    Let (X) and (Y) be independent random variables. Then [ < m Var>(aX + bY) = a^2 < m Var>(X) + b^2 < m Var>(Y) ]

    We prove part 1 here, and verify part 2 through simulation in Exercise 5.37. [commencer < m Var>(cX) =& E[(cX)^2] - E[cX]^2 = c^2E[X^2] - (cE[X])^2 =&c^2igl(E[X^2] - E[X]^2) = c^2< m Var>(X) end]

    Theorem 5.10 part 2 is only true when (X) and (Y) are indépendant.

    If (X) and (Y) are independent, then (< m Var>(X - Y) = < m Var>(X) + < m Var>(Y)) .

    Let (X sim ext(n, p)) . We have seen that (X = sum_^n X_i) , where (X_i) are independent Bernoulli random variables. Par conséquent,

    [commencer < ext >(X) &= < ext >(sum_^n X_i) &= sum_^n < ext >(X_i) &= sum_^n p(1 - p) = np(1-p) end] where we have used that the variance of a Bernoulli random variable is (p(1- p)) . Indeed, (E[X_i^2] -E[X_i]^2 = p - p^2 = p(1 - p)) .


    1 réponse 1

    Just as for rolling two ordinary dice, the sample space consists of a $6 imes 6$ of pairs of faces.

    Enumeration: For the sum $S$ on the two dice, each of the 36 cells can also be labeled with the total of the two corresponding faces. Then count the cells for each total. (The first two of the six rows are shown below.)

    Analytic methods: It is easy to show that $E(S) = E(D_a) + E(D_b) = 15/6 + 27/6 = 42/6 = 3.5,$ which is the same as for regular dice. A bit more tediously, one can show that $Var(S)$ is the same as for regular dice. 'Probability generating functions' could be used to show that the distribution of $S$ agrees with the (triangular) distribution of the sum of two ordinary dice.

    Simulation: The distribution of $S$ can be very closely approximated by simulating the sums on a million rolls of these two special dice and tallying the results. (Simulation in R statistical software gives probabilities accurate to about three places.)

    The plot below shows a histogram of the million simulated totals obtained when rolling a pair of these special dice. The dots show the exact distribution.


    4.5 Probability and Statistics

    Modern science may be characterized by a systematic collection of empirical measurements and the attempt to model laws of nature using mathematical language. The drive to deliver better measurements led to the development of more accurate and more sensitive measurement tools. Nonetheless, at some point it became apparent that measurements may not be perfectly reproducible and any repeated measurement of presumably the exact same phenomena will typically produce variability in the outcomes. On the other hand, scientists also found that there are general laws that govern this variability in repetitions. For example, it was discovered that the average of several independent repeats of the measurement is less variable and more reproducible than each of the single measurements themselves.

    Probability was first introduced as a branch of mathematics in the investigation of uncertainty associated with gambling and games of chance. During the early 19th century probability began to be used in order to model variability in measurements. This application of probability turned out to be very successful. Indeed, one of the major achievements of probability was the development of the mathematical theory that explains the phenomena of reduced variability that is observed when averages are used instead of single measurements. In Chapter 7 we discuss the conclusions of this theory.

    Statistics study method for inference based on data. Probability serves as the mathematical foundation for the development of statistical theory. In this chapter we introduced the probabilistic concept of a random variable. This concept is key for understanding statistics. In the rest of Part I of this book we discuss the probability theory that is used for statistical inference. Statistical inference itself is discussed in Part II of the book.


    Voir la vidéo: iOS Beta 1 (Octobre 2021).