le logo du site

4. Lois théoriques usuelles.

4.1.6. Lois Polyhypergéométriques.

Nous généralisons les lois Hypergéométriques au cas multivarié.

Propriété 1. Soit un ensemble contenant \(N\) unités et partitionné en \(r\) sous-ensembles, chacun contenant \(N_j\) unités, \(j=1,\cdots, r\). Les unités du sous-ensemble d’ordre \(j\) possèdent exclusivement, par exemple, une caractéristique \({\cal C}_j\), pour tous les \(j=1, \cdots, r\). Nous avons \(N=N_1+\cdots +N_r\). Nous procédons à \(n\) tirages sans remise. Nous considérons le v.a. \(X=\sideset{^t}{}(X_1, \cdots, X_r)\), de dimension \(r\), dont la composante d’ordre \(j\), notée \(X_j\), admet comme réalisation le nombre d’unités possédant la caractéristique \({\cal C}_j\) parmi les \(n\) unités extraites, et ceci pour tout les \(j=1, \cdots, r\). Alors la loi de ce v.a. est donnée par :

\[ P(X=\ ^t(k_1, \cdots, k_r))=\frac{C_{N_1}^{k_1} C_{N_2}^{k_2}\cdots C_{N_r}^{k_r}}{C_N^n}, \]

pour \(k_j=0, 1,\cdots , n\) et \(j=1, \cdots, r\) ; de plus nous avons \(k_1+\cdots+k_r=n\). Nous appelons la loi de \(X\) loi Polyhypergéométrique de dimension \(r\) et de paramètres \(N_1, \cdots, N_r, n\in {\mathbb N}\). Nous notons \({\cal L}(X)={\cal PH}(N_1\, \cdots, N_r\ ;\ n)\).

Modélisation. Le v.a. \(X\) peut s’écrire comme somme des indicatrices vectorielles \(Y_1, \cdots, Y_n\). L’indicatrice \(Y_i\) a toutes ses composantes nulles à l’exception de celle dont l’indice correspond à l’ordre de la caractéristique possédée par l’unité extraite lors de ce tirage d’ordre \(i\), pour tous les \(i=1, \cdots, n\).

Remarque 1. Pour montrer que la somme des probabilités vaut bien \(1\), nous utilisons l’identité généralisée de Vandermonde :

\[ C_N^n = \sum_{\scriptstyle 0\le k_1,\cdots,k_r \atop\scriptstyle k_1+\cdots +k_r=n} C_{N_1}^{k_1} C_{N_2}^{k_2}\cdots C_{N_r}^{k_r},\quad {\rm pour\ tous}\quad n,\ N_1,\ \cdots,\ N_r\in {\mathbb N}. \]

Celle-ci s’obtient en identifiant les coefficients de même degré dans les deux polynômes en \(a\) : \((1+a)^N=(1+a)^{N_1}(1+a)^{N_2}\cdots (1+a)^{N_r}\).

Approximation. Si l’ensemble est assez grand et si nous extrayons assez peu d’unités, en pratique \(50\leq N\) et \(n\leq 0,1 N\), alors nous pouvons assimiler des tirages sans remise à des tirages avec remise. C’est-à-dire que dans ces conditions nous avons :

\[ {\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\approx {\cal M}(n\ ;\ \displaystyle\frac{N_1}{N}, \cdots, \displaystyle\frac{N_r}{N}). \]

Propriété 2. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors pour tout \(j=1, \cdots, r\), la loi marginale de \(X_j\) est une loi Hypergéométrique \({\cal HY}(N_j, N-N_j\ ;\ n)\). La loi marginale du v.a. \((X_{j_1}, X_{j_2}, n-X_{j_1}-X_{j_2})\) est une loi Polyhypergéométrique \({\cal PH}(N_{j_1}, N_{j_2}, N-N_{j_1}- N_{j_2}\ ;\ n)\). La loi conditionnelle de \(X_{j_1}\) sachant que \(X_{j_2}=k_{j_2}\) est une loi Hypergéométrique \({\cal HY}(N_1, N-N_{j_2}\ ;\ n-k_{j_2})\).

Propriété 3. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors la moyenne théorique de ce vecteur est le vecteur défini par :

\[ {\mathbb E}\lbrack X\rbrack=\pmatrix{ {\mathbb E}\lbrack X_1\rbrack\cr \vdots \cr {\mathbb E}\lbrack X_r\rbrack \cr}= \pmatrix{ \displaystyle n\frac{N_1}{N}\cr \vdots \cr n\frac{N_r}{N}\cr}. \]

Propriété 4. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors la matrice des variances-covariances théoriques de ce vecteur est la matrice définie par :

\[ \Sigma\lbrack X\rbrack={\mathbb E}\left\lbrack (X - {\mathbb E}\lbrack X\rbrack)\sideset{^t}{}(X - {\mathbb E}\lbrack X\rbrack)\right\rbrack= \] \[ =\displaystyle\frac{N-n}{N-1}\pmatrix{ \displaystyle n\frac{N_1}{N}(1-\frac{N_1}{N}) & -n\frac{N_1}{N}\frac{N_2}{N}& \cdots & -n\frac{N_1}{N}\frac{N_r}{N} \cr -n\frac{N_2}{N}\frac{N_1}{N}& n\frac{N_2}{N}(1-\frac{N_2}{N}) & \cdots & -n\frac{N_2}{N}\frac{N_r}{N} \cr \vdots & \vdots & \ddots & \vdots\cr -n\frac{N_r}{N}\frac{N_1}{N}& -n\frac{N_r}{N}\frac{N_2}{N} & \cdots & n\frac{N_r}{N}(1-\frac{N_r}{N}) \cr} \]

Remarque 2. Nous constatons que le vecteur espérance est le même que celui de la loi Multinomiale. Dans la matrice des variances-covariances nous voyons apparaître les variances et les covariances de la loi Multinomiale, avant tirages, mais corrigée par l’indice d’exhaustivité\(\dfrac{N-n}{N-1}\). Nous notons que, lorsque \(n=N\), la matrice des variances-covariances est nulle, nous connaissons exactement le nombre d’unités de l’ensemble ; si \(N\) est très grand par rapport à \(n\), alors l’indice d’exhaustivité est proche de \(1\) et nous avons presque la même matrice des variances-covariances que celle de la loi Multinomiale.

Remarque 3. Pour voir ces propriétés il suffit d’utiliser l’identité généralisée de Vandermonde et la propriété \(kC_{l}^k=lC_{l-1}^{k-1}\).

Haut de la page.