Nous généralisons les lois Hypergéométriques au cas multivarié.
Propriété 1. Soit un ensemble contenant \(N\) unités et partitionné en \(r\) sous-ensembles, chacun contenant \(N_j\) unités, \(j=1,\cdots, r\). Les unités du sous-ensemble d’ordre \(j\) possèdent exclusivement, par exemple, une caractéristique \({\cal C}_j\), pour tous les \(j=1, \cdots, r\). Nous avons \(N=N_1+\cdots +N_r\). Nous procédons à \(n\) tirages sans remise. Nous considérons le v.a. \(X=\sideset{^t}{}(X_1, \cdots, X_r)\), de dimension \(r\), dont la composante d’ordre \(j\), notée \(X_j\), admet comme réalisation le nombre d’unités possédant la caractéristique \({\cal C}_j\) parmi les \(n\) unités extraites, et ceci pour tout les \(j=1, \cdots, r\). Alors la loi de ce v.a. est donnée par :
\[ P(X=\ ^t(k_1, \cdots, k_r))=\frac{C_{N_1}^{k_1} C_{N_2}^{k_2}\cdots C_{N_r}^{k_r}}{C_N^n}, \]pour \(k_j=0, 1,\cdots , n\) et \(j=1, \cdots, r\) ; de plus nous avons \(k_1+\cdots+k_r=n\). Nous appelons la loi de \(X\) loi Polyhypergéométrique de dimension \(r\) et de paramètres \(N_1, \cdots, N_r, n\in {\mathbb N}\). Nous notons \({\cal L}(X)={\cal PH}(N_1\, \cdots, N_r\ ;\ n)\).
Modélisation. Le v.a. \(X\) peut s’écrire comme somme des indicatrices vectorielles \(Y_1, \cdots, Y_n\). L’indicatrice \(Y_i\) a toutes ses composantes nulles à l’exception de celle dont l’indice correspond à l’ordre de la caractéristique possédée par l’unité extraite lors de ce tirage d’ordre \(i\), pour tous les \(i=1, \cdots, n\).
Remarque 1. Pour montrer que la somme des probabilités vaut bien \(1\), nous utilisons l’identité généralisée de Vandermonde :
\[ C_N^n = \sum_{\scriptstyle 0\le k_1,\cdots,k_r \atop\scriptstyle k_1+\cdots +k_r=n} C_{N_1}^{k_1} C_{N_2}^{k_2}\cdots C_{N_r}^{k_r},\quad {\rm pour\ tous}\quad n,\ N_1,\ \cdots,\ N_r\in {\mathbb N}. \]Celle-ci s’obtient en identifiant les coefficients de même degré dans les deux polynômes en \(a\) : \((1+a)^N=(1+a)^{N_1}(1+a)^{N_2}\cdots (1+a)^{N_r}\).
Approximation. Si l’ensemble est assez grand et si nous extrayons assez peu d’unités, en pratique \(50\leq N\) et \(n\leq 0,1 N\), alors nous pouvons assimiler des tirages sans remise à des tirages avec remise. C’est-à-dire que dans ces conditions nous avons :
\[ {\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\approx {\cal M}(n\ ;\ \displaystyle\frac{N_1}{N}, \cdots, \displaystyle\frac{N_r}{N}). \]Propriété 2. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors pour tout \(j=1, \cdots, r\), la loi marginale de \(X_j\) est une loi Hypergéométrique \({\cal HY}(N_j, N-N_j\ ;\ n)\). La loi marginale du v.a. \((X_{j_1}, X_{j_2}, n-X_{j_1}-X_{j_2})\) est une loi Polyhypergéométrique \({\cal PH}(N_{j_1}, N_{j_2}, N-N_{j_1}- N_{j_2}\ ;\ n)\). La loi conditionnelle de \(X_{j_1}\) sachant que \(X_{j_2}=k_{j_2}\) est une loi Hypergéométrique \({\cal HY}(N_1, N-N_{j_2}\ ;\ n-k_{j_2})\).
Propriété 3. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors la moyenne théorique de ce vecteur est le vecteur défini par :
\[ {\mathbb E}\lbrack X\rbrack=\pmatrix{ {\mathbb E}\lbrack X_1\rbrack\cr \vdots \cr {\mathbb E}\lbrack X_r\rbrack \cr}= \pmatrix{ \displaystyle n\frac{N_1}{N}\cr \vdots \cr n\frac{N_r}{N}\cr}. \]Propriété 4. Si \({\cal L}(X)={\cal PH}(N_1, \cdots, N_r\ ;\ n)\), alors la matrice des variances-covariances théoriques de ce vecteur est la matrice définie par :
\[ \Sigma\lbrack X\rbrack={\mathbb E}\left\lbrack (X - {\mathbb E}\lbrack X\rbrack)\sideset{^t}{}(X - {\mathbb E}\lbrack X\rbrack)\right\rbrack= \] \[ =\displaystyle\frac{N-n}{N-1}\pmatrix{ \displaystyle n\frac{N_1}{N}(1-\frac{N_1}{N}) & -n\frac{N_1}{N}\frac{N_2}{N}& \cdots & -n\frac{N_1}{N}\frac{N_r}{N} \cr -n\frac{N_2}{N}\frac{N_1}{N}& n\frac{N_2}{N}(1-\frac{N_2}{N}) & \cdots & -n\frac{N_2}{N}\frac{N_r}{N} \cr \vdots & \vdots & \ddots & \vdots\cr -n\frac{N_r}{N}\frac{N_1}{N}& -n\frac{N_r}{N}\frac{N_2}{N} & \cdots & n\frac{N_r}{N}(1-\frac{N_r}{N}) \cr} \]Remarque 2. Nous constatons que le vecteur espérance est le même que celui de la loi Multinomiale. Dans la matrice des variances-covariances nous voyons apparaître les variances et les covariances de la loi Multinomiale, avant tirages, mais corrigée par l’indice d’exhaustivité\(\dfrac{N-n}{N-1}\). Nous notons que, lorsque \(n=N\), la matrice des variances-covariances est nulle, nous connaissons exactement le nombre d’unités de l’ensemble ; si \(N\) est très grand par rapport à \(n\), alors l’indice d’exhaustivité est proche de \(1\) et nous avons presque la même matrice des variances-covariances que celle de la loi Multinomiale.
Remarque 3. Pour voir ces propriétés il suffit d’utiliser l’identité généralisée de Vandermonde et la propriété \(kC_{l}^k=lC_{l-1}^{k-1}\).
Haut de la page.