Soit \(X\) une v.a. ou un v.a. dont la loi dépend d’un paramètre \(\theta \in \Theta\subset {\mathbb R}^s,\ s\geq 2\). Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X\) et la fonction de vraisemblance assossiée \(L(x_{\bullet}\ ;\ \theta).\)
Définition 1. Nous appelons estimateur de \(\theta\) obtenu par la méthode du maximum de la vraisemblance la statistique, à valeurs dans \({\mathbb R}^s\),
\[ T(x_{\bullet})=\arg\lbrace \max_{\theta\in\Theta}L(x_{\bullet}\ ;\ \theta)\rbrace. \]C’est-à-dire que, à partir d’une observation de \(X_{\bullet}\), nous considérons comme estimation de \(\theta\) la valeur de ce paramètre pour laquelle la fonction de vraisemblance atteint son maximum.
Interprétation. Nous avons la même interprétation que dans le cas univarié.
Exemple 1. Nous observons \(X\) une v.a. de loi Normale \({\cal L}(X)={\cal N}(\mu\ ;\ \sigma^2)\), avec \(\theta=\sideset{^t}{}{(\mu,\ \sigma^2)} \in \Theta={\mathbb R}\times{\mathbb R}_+^{\star}\subset {\mathbb R}^2\) ; ici \(s=2\). Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X.\) La log-vraisemblance s’écrit :
\[ \ln (L(x_{\bullet}\ ;\ \mu,\ \sigma^2))=-\frac{n}{2}\ln({2\pi})- \frac{n}{2}\ln({\sigma^2})-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2. \]Nous allons montrer que les statistiques :
\[ \overline{X}_{\bullet}=\frac{1}{n}\sum_{i=1}^nX_i\quad{\rm et}\quad S^2(X_{\bullet})=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X}_{\bullet})^2 \]réalisent le maximum de la vraisemblance en tant que fonction de \(\sideset{^t}{}{(\mu,\ \sigma^2)}\). Nous avons :
\[ \sum_{i=1}^n(x_i-\overline{x}_{\bullet}+\overline{x}_{\bullet}-\mu)^2=\sum_{i=1}^n(x_i-\overline{x}_{\bullet})^2+2(\overline{x}_{\bullet}-\mu) \sum_{i=1}^n(x_i-\overline{x}_{\bullet})+n(\overline{x}_{\bullet}-\mu)^2= \] \[ =\sum_{i=1}^n(x_i-\overline{x}_{\bullet})^2+n(\overline{x}_{\bullet}-\mu)^2\geq \sum_{i=1}^n(x_i-\overline{x}_{\bullet})^2. \]Ceci nous permet d’écrire :
\[ \ln (L(x_{\bullet}\ ;\ \mu,\ \sigma^2))\leq \ln (L(x_{\bullet}\ ;\ \overline{x}_{\bullet},\ \sigma^2))=-\frac{n}{2}\ln({2\pi})- \frac{n}{2}\ln({\sigma^2})-\frac{nS^2(x_{\bullet})}{2\sigma^2}. \]Mais la fonction en \(u,\ \displaystyle\frac{a}{u}+\ln(u)\) est d’abord décroissante, elle atteint son minimum pour \(u=a\), puis elle devient croissante. Cette remarque nous permet d’obtenir :
\[ L(x_{\bullet}\ ;\ \mu,\ \sigma^2)\leq L(x_{\bullet}\ ;\ \overline{x}_{\bullet},\ \sigma^2)\leq L(x_{\bullet}\ ;\ \overline{x}_{\bullet},\ S^2(x_{\bullet}))\quad \forall \mu,\ \sigma^2. \]C’est le résultat annoncé. \(\quad\square\)
Les conditions (CR 0), (CR 1), (CR 2), (CR 3), (CR 4) et (CR 5) se généralisent au cas multivarié en considérant toutes les dérivées partielles par rapport aux paramètres.
Propriété 1. Nous supposons que les conditions (CR 0), (CR 1), (CR 2) et (CR 3) sont satisfaites. Alors toute solution \(T_1(x_{\bullet})\) du système d’équations de vraisemblance :
\[ \frac{\partial \ln L(x_{\bullet}\ ;\ \theta)}{\partial \theta_j}=0,\quad \forall j=1,\ \cdots,\ s, \]est une réalisation d’un estimateur \(T_1(X_{\bullet})\) convergeant en probabilité vers la «vraie» valeur de \(\theta\). Si de plus la condition (CR 5) est satisfaite alors c’est également un estimateur asymptotiquement sans biais, efficace et normal. Nous avons alors :
\[ \lim_{n\rightarrow +\infty} {\cal L}_{\theta}\left(\sqrt{n}(T_1(X_{\bullet})-\theta)\right)={\cal N}_s(0\ ;\ I(\theta)^{-1}),\quad \lim_{n\rightarrow +\infty} {\cal L}_{\theta}\left(n\sideset{^t}{}(T_1(X_{\bullet})-\theta)I(\theta)(T_1(X_{\bullet})-\theta)\right)=\chi^2_s. \]où \(I(\theta)\) est la matrice d’information de Fisher associée aux paramètres \(\theta\). De plus si le système admet une solution unique, c’est l’estimateur du maximum de vraisemblance \(T(X_{\bullet})\).
Remarque 1. Comme les conditions (CR) sont satisfaites pour la loi Normale univariée, les statistiques de l’exemple 1 satisfont à la propriété 1.
Cependant dans l’étude spécifique des paramètres de cette loi nous verrons que :
- la statistique \(\overline{X}_{\bullet}\) est un estimateur de \(\mu\) sans biais, efficace et de loi Normale, pour tout \(n\) ;
- la statistique \(S^2(X_{\bullet})\) est un estimateur de \(\sigma^2\) avec biais, que nous pouvons corriger et obtenir un estimateur efficace et de loi connue,
pour tout \(n\) ;
- les deux estimateurs précédents sont indépendants.
Exemple 2. Soit \(X\) un v.a. de loi Normale \({\cal L}(X)={\cal N}_p(\mu\ ;\ \Sigma)\), avec les paramètres \(\mu=\ ^t(\mu_1,\ \cdots,\ \mu_p)\in {\mathbb R}^p\) la moyenne théorique et \(\Sigma=(\sigma_{j,j^{\prime}},\ j,\ j^{\prime}=1,\ \cdots,\ p) \in {\mathbb M}(p,\ p)\) la matrice de variances-covariances théoriques ; ici \(s=p+\displaystyle\frac{p(p+1)}{2}\). Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X\). La log-vraisemblance s’écrit :
\[ \ln (L(x_{\bullet}\ ;\ \mu,\ \Sigma))=-\frac{np}{2}\ln({2\pi})- \frac{n}{2}\ln({Det(\Sigma}))-\frac{1}{2}\sum_{i=1}^n\ ^t(x_i-\mu)\Sigma^{-1}(x_i-\mu). \]Nous allons montrer que les statistiques :
\[ \overline{X}_{\bullet}=\frac{1}{n}\sum_{i=1}^nX_i\quad{\rm et}\quad S^2(X_{\bullet})=\frac{1}{n}\sum_{i=1}^n(X_i- \overline{X}_{\bullet})\ ^t(X_i- \overline{X}_{\bullet}) \]sont solutions du système d’équations de vraisemblance. Nous utilisons les notations qui ont été posées dans le calcul de la matrice d’information de Fisher pour les paramètres des lois Normales multivariées. Un calcul d’algèbre linéaire nous donne :
\[ \sum_{i=1}^n\ ^t(x_i-\mu)\Sigma^{-1}(x_i-\mu)=\sum_{i=1}^n\ ^t(x_i-\overline{x}_{\bullet})\Sigma^{-1}(x_i-\overline{x}_{\bullet})+n\ ^t(\overline{x}_{\bullet}-\mu)\Sigma^{-1}(\overline{x}_{\bullet}-\mu) = \] \[ =Tr\Big(\Sigma^{-1}\sum_{i=1}^n(x_i-\overline{x}_{\bullet})\ ^t(x_i-\overline{x}_{\bullet})\Big)+nTr\Big(\Sigma^{-1}(\overline{x}_{\bullet}-\mu)\ ^t(\overline{x}_{\bullet}-\mu)\Big). \]Cette dernière expression nous permet d’écrire :
\[ \ln (L(x_{\bullet}\ ;\ \mu,\ \Sigma))=-\frac{np}{2}\ln({2\pi})- \frac{n}{2}\ln({Det(\Sigma})) \] \[ -\frac{n}{2}Tr\Big(\Sigma^{-1}S^2(x_{\bullet})\Big)-\frac{n}{2}Tr\Big(\Sigma^{-1}(\overline{x}_{\bullet}-\mu)\ ^t(\overline{x}_{\bullet}-\mu)\Big). \]Les dérivations nous donnent trois types d’équations. Pour les moyennes nous obtenons :
\[ \frac{\partial\ln (L(x_{\bullet}\ ;\ \mu,\ \Sigma))}{\partial \mu_j}=n\sum_{j^{\prime}=1}^p\tau_{j,j^{\prime}}(\overline{x}_{j^{\prime}}-\mu_{j^{\prime}})=0,\quad \forall j=1,\ \cdots,\ p. \]Pour les variances nous obtenons :
\[ \frac{\partial\ln (L(x_{\bullet}\ ;\ \mu,\ \Sigma))}{\partial \sigma^2_j}=\frac{n}{2}\Big\lbrack(\Sigma^{-1}S^2(x_{\bullet})\Sigma^{-1})_{j,j}-\tau_{j,j}- Tr\big(\frac{\partial \Sigma_{-1}}{\partial \sigma^2_j}(\overline{x}_{\bullet}-\mu)\ ^t(\overline{x}_{\bullet}-\mu)\Big)\Big\rbrack=0, \] \[ \forall j=1,\ \cdots,\ p. \]Pour les covariances nous obtenons :
\[ \frac{\partial\ln (L(x_{\bullet}\ ;\ \mu,\ \Sigma))}{\partial \sigma_{j,j^{\prime}}}=\frac{n}{2}\Big\lbrack 2(\Sigma^{-1}S^2(x_{\bullet})\Sigma^{-1})_{j,j^{\prime}}-2\tau_{j,j^{\prime}}- Tr\big(\frac{\partial \Sigma_{-1}}{\partial \sigma_{j,j^{\prime}}}(\overline{x}_{\bullet}-\mu)\ ^t(\overline{x}_{\bullet}-\mu)\Big)\Big\rbrack=0, \] \[ \forall j,\ j^{\prime}=1,\ \cdots,\ p,\quad j\not=j^{\prime}. \]Pour \(j,\ j^{\prime}=1,\ \cdots,\ p\), nous avons noté \(\Sigma^{-1}=(\tau_{j,j^{\prime}})\) et \((\Sigma^{-1}S^2(x_{\bullet})\Sigma^{-1})_{j,j^{\prime}}\) l’élément de la matrice \(\Sigma^{-1}S^2(x_{\bullet})\Sigma^{-1}\) qui se trouve sur la ligne \(j\) et la colonne \(j^{\prime}\). Il est clair que \(\mu=\overline{x}_{\bullet}\) et \(\Sigma=S^2(x_{\bullet})\) sont solutions des équations précédentes. C’est le résultat annoncé. \(\quad\square\)
Remarque 2. Comme les conditions (CR) sont satisfaites pour la loi Normale multivariée, les statistiques de l’exemple 2 satisfont à la propriété 1.
Cependant dans l’étude spécifique des paramètres de cette loi nous verrons que :
- la statistique \(\overline{X}_{\bullet}\) est un estimateur de \(\mu\) sans biais, efficace et de loi Normale, pour tout \(n\) ;
- la statistique \(S^2(X_{\bullet})\) est un estimateur de \(\Sigma^2\) avec biais et de loi connue,
pour tout \(n\);
- les deux estimateurs précédents sont indépendants.
Remarque 3. Très souvent nous n’avons pas de solution explicite pour le système d’équations de vraisemblance. Dans ces cas nous résolvons numériquement ce système pour l’échantillon observé. Plusieurs exemples sont donnés dans l’estimaion des paramètres des lois usuelles.
Références. Des détails sur cette méthode sont donnés dans l’ouvrage de E. L. Lehmann, G. Casella (1998).
Haut de la page.