Lois Hypergéométriques.

4.1.3. Lois Hypergéométriques.

Nous présentons la loi utilisée dans l’étude d’une proportion lorsque les tirages sont sans remise.

Propriété 1. Soit un ensemble contenant \(N\) unités, dont \(N_1\) unités possèdent une caractéristique \({\cal C}\) et \(N-N_1\) unités ne possèdent pas cette caractéristique. Nous procédons à \(n\) tirages sans remise. Nous considérons la v.a. «nombre d’unités possédant la caractéristique \({\cal C}\) parmi les \(n\) unités extraites», v.a. notée \(X\). Alors la loi de celle-ci est donnée par :

\[ P(X=k)=\frac{C_{N_1}^k C_{N-N_1}^{n-k}}{C_N^n}, \]

pour \(k=0,\ 1,\cdots ,\ n\). Nous appelons la loi de \(X\) loi Hypergéométrique de paramètres \(N,\ N_1,\ n \in {\mathbb N}\). Nous notons \({\cal L}(X)={\cal HY}(N_1\ ;\ N-N_1\ ;\ n)\).

Modélisation. La v.a. \(X\) peut s’écrire comme somme des indicatrices \(I_1,\ \cdots,\ I_n\) de la présence de la caractéristique \({\cal C}\) sur les \(n\) unités extraites. Les tirages étant sans remise, la proportion des unités ayant la caractéristique \({\cal C}\) n’est plus la même à chaque tirage ; en effet cette proportion s’est modifiée en fonction des unités extraites lors des tirages précécents. Cependant \(X\) est bien une somme d’indicatrices suivant une loi de Bernoulli de même papamètre \(\displaystyle\frac{N_1}{N}\) mais ces indicatrices sont dépendantes, ce qui ne nous permet pas d’obtenir pour \({\cal L}(X)\) une loi Binomiale.

Remarque 1. Le domaine de variation de l’indice \(k\) est précisément \(\lbrace \max(0\ ;\ n-(N-N_1)),\ \cdots,\ \min(n\ ;\ N_1)\rbrace\). En effet si nous extrayons plus de \(N-N_1\) unités, \(N-N_1 < n\), nous pouvons avoir au plus \(N-N_1\) unités sans la caractéristique \({\cal C}\) et donc au moins \(n-(N-N_1)\) possédant \({\cal C}\) ; si nous extrayons plus de \(N_1\) unités, \(N_1 < n\), nous pouvons avoir au plus \(N_1\) unités avec la caractéristique \({\cal C}\). Mais si nous posons \(\displaystyle C_l^m=0\) lorsque \(l < m\), alors nous pouvons garder le domaine \(\lbrace 0,\ \cdots,\ n\rbrace\) pour l’indice \(k\) dans toute la suite.

Remarque 2. L’expression définissant la probabilité d’observer \(k\) unités ayant la caractéristique \({\cal C}\) parmi les \(n\) unités extraites est un rapport qui peut s’expliquer de la façon suivante. Au numérateur nous avons le nombre de manières différentes d’avoir \(k\) unités parmi \(N_1\) multiplié par le nombre de manières différentes d’avoir \(n-k\) unités parmi \(N-N_1\), c’est le nombre de cas favorables. Au dénominateur nous avons le nombre de manières différentes d’avoir \(n\) unités parmi \(N\), c’est le nombre total de cas.

Remarque 3. Pour montrer que la somme des probabilités vaut bien \(1\), nous utilisons l’identité de Vandermonde :

\[ C_N^n = \sum_{k=0}^n C_{N_1}^k C_{N-N_1}^{n-k}, \]

pour tous \(n,\ N,\ N_1\in {\mathbb N}\). Celle-ci s’obtient en identifiant les coefficients de même degré dans les polynômes en \( a\ :\ (1+a)^N=(1+a)^{N_1}(1+a)^{N-N_1}\).

Calculs avec R. Si \({\cal L}(X)={\cal HY}(20\ ;\ 20\ ;\ 10)\), alors \(P(X=3)\) se détermine avec la commande :

dhyper(3,20,20,10) ; réponse : 0.1042549.

Si \({\cal L}(X)={\cal HY}(35\ ;\ 15\ ;\ 10)\), alors \(F_X(6)=P(X\leq 6)\) se détermine avec la commande :

phyper(6,35,15,10,lower.tail=TRUE) ; réponse : 0.3405933.

Si \({\cal L}(X)={\cal HY}(35\ ;\ 15\ ;\ 10)\), alors \(P(6 < X)=1-F_X(6)\) se détermine avec la commande :

phyper(6,35,15,10,lower.tail=FALSE) ; réponse : 0.6594067.

Si \({\cal L}(X)={\cal HY}(30\ ;\ 20\ ;\ 10)\), alors \(P(3 < X \leq 8)\) se détermine avec la commande :

sum(dhyper(4:8,30,20,10)) ; réponse : 0.9327374.

Si \({\cal L}(X)={\cal HY}(35\ ;\ 15\ ;\ 10)\), alors la médiane \(Me\lbrack X\rbrack\) se détermine avec la commande quantile :

qhyper(0.5,35,15,10,lower.tail=TRUE) ; réponse : 7.

C’est la même commande, mais adaptée, qui permet le calcul de tout quantile. Il est possible de réaliser des simulations d’observations d’une loi Hypergéométrique avec la commande rhyper et les paramètres souhaités.

Approximation. Si l’ensemble est assez grand et si nous extrayons assez peu d’unités, en pratique \(50\leq N\) et \(n\leq 0,1\ N\), alors nous pouvons assimiler des tirages sans remise à des tirages avec remise. C’est-à-dire que dans ces conditions nous avons \({\cal L}(X)={\cal HY}(N_1\ ;\ N-N_1\ ;\ n)\approx {\cal B}(n\ ;\ \displaystyle\frac{N_1}{N})\). A titre d’illustration voici deux calculs avec R.

dbinom(3,7,.5) ; réponse : 0.2734375.

dhyper(3,50,50,7) ; réponse : 0.2819842.

Propriété 2. Si \({\cal L}(X)={\cal HY}(N_1\ ;\ N-N_1\ ;\ n)\), nous avons les résultats \({\mathbb E} \lbrack X\rbrack = n \dfrac{N_1}{N}\) et \(\sigma^2\lbrack X\rbrack = n \dfrac{N_1}{N}(1- \dfrac{N_1}{N})\dfrac{N-n}{N-1}\).

Remarque 4. L’espérance est la même que celle de la loi Binomiale, avant tirages. Dans la variance nous voyons apparaître la variance de la loi Binomiale, avant tirages, mais corrigée par le coefficient \(\displaystyle\frac{N-n}{N-1}\), appelé indice d’exhaustivité. Nous notons que lorsque \(n=N\), la variance est nulle, nous connaissons exactement le nombre d’unités de l’ensemble possédant \({\cal C}\) ; si \(N\) est très grand par rapport à \(n\), alors l’indice d’exhaustivité est proche de \(1\) et nous avons presque la même variance que celle de la loi Binomiale.

Remarque 5. Il n’existe pas d’expression simple donnant directement la médiane et plus généralement les quantiles d'une loi Hypergémétrique. En pratique il faut utiliser la commande de R ci-dessus.

Propriété 3. Si \({\cal L}(X)={\cal HY}(N_1\ ;\ N-N_1\ ;\ n)\), le mode \(Mo\lbrack X\rbrack\) est conpris entre les deux nombres \(\displaystyle\frac{(N_1+1)(n+1)}{N+2}-1\) et \(\displaystyle\frac{(N_1+1)(n+1)}{N+2}\). L’intervalle, défini par ces deux nombres est de longueur \(1\), il contient soit un seul entier soit deux, qui correspondent alors aux bornes de celui-ci. Ainsi nous avons soit un seul mode soit deux. Le coefficient d’asymétrie est donné par :

\[ \gamma_1\lbrack X\rbrack = \frac{\mu_3\lbrack X\rbrack}{\sigma^3\lbrack X\rbrack}=\frac{(N-2n)(1-\displaystyle\frac{2N_1}{N})}{(N-2)\sigma\lbrack X\rbrack}. \]

Remarque 6. Lorsque \(N_1=0,5\ N\), la distribution de \(X\) est symétrique autour de l’espérance \(0,5\ n\). Le coefficient d’aplatissement est donné par une expression compliquée difficilement interprétable.

Propriété 4. Si \({\cal L}(X)={\cal HY}(N_1\ ;\ N-N_1\ ;\ n)\), les moments factoriels sont donnés par l’expression :

\[ MF_m\lbrack X\rbrack = {\mathbb E} \lbrack X(X-1)\cdots (X-(m-1))\rbrack = N_1(N_1-1)\cdots(N_1-(m-1))\frac{C_{N-m}^{n-m}}{C_N^n}, \]

pour \( m=1,\ \cdots,\ n\).

Pour le voir, il suffit d’utiliser l’identité de Vandermonde et la propriété \(kC_{l}^k=lC_{l-1}^{k-1}\). Ces moments factoriels nous permettent de calculer l’espérance, la variance et le coefficient d’asymétrie. \(\quad \square\)

Haut de la page.

4. Lois théoriques usuelles.

4. Lois théoriques usuelles.

4.1.3. Lois Hypergéométriques.