Soit \(X\) une v.a. dont la loi dépend d’un paramètre \(\theta \in \Theta\subset {\mathbb R}\). Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X\).
Définition 1. Nous appelons estimateur de \(\theta\) obtenu par la méthode du maximum de la vraisemblance la statistique
\[ T(x_{\bullet})=\arg\lbrace \max_{\theta\in\Theta}L(x_{\bullet}\ ;\ \theta)\rbrace. \]C’est-à-dire que, à partir d’une observation de \(x_{\bullet}\), nous considérons comme estimation de \(\theta\) la valeur de ce paramètre pour laquelle la fonction de vraisemblance atteint son maximum.
Interprétation. Nous avions interprété la vraisemblance \(L(x_{\bullet}\ ;\ \theta)\) comme étant les « chances » d’observer \(x_{\bullet}\) lorsque \(\theta\) est la valeur du paramètre. Partant du principe que c’est le plus probable qui a été observé, nous retenons comme estimation du paramètre la valeur pour laquelle l’échantillon observé avait le plus de « chances » d’être observé.
Exemple 1. Nous supposons que la durée entre la mise en service et la première panne d’un appareil est la réalisation d’une v.a. suivant une loi de Pareto \({\cal L}(X)={\cal PA}(\alpha\ ;\ x_0)\), avec \(\alpha,\ x_0\in {\mathbb R}_+^{\star}\) paramètres inconnus. Nous estimons \(x_0\). La vraisemblance s’écrit :
\[ L(x_{\bullet}\ ;\ x_0)=\alpha^nx_0^{n\alpha}(\prod_{i=1}^nx_i)^{-(\alpha+1)}\prod_{i=1}^nI_{\rbrack x_0\ ;\ +\infty\lbrack}(x_i)=\alpha^nx_0^{n\alpha}(\prod_{i=1}^nx_i)^{-(\alpha+1)} I_{\rbrack 0\ ;\ \displaystyle \overset{n}{\underset{i=1}{\min}} x_i\lbrack}(x_0). \]Pour \(\alpha,\ x_0\in {\mathbb R}_+^{\star}\), la fonction \(x_0^{n\alpha}\) est une fonction croissante de \(x_0\). De plus, comme :
\[ I_{\rbrack 0\ ;\ \displaystyle\overset{n}{\underset{i=1}{\min}} x_i\lbrack}(x_0)=\cases{ 1 \quad {\rm si} & \( 0 < x_0 < \displaystyle\overset{n}{\underset{i=1}{\min}} x_i,\) \cr 0 \quad {\rm si} & \(\ \displaystyle\overset{n}{\underset{i=1}{\min}} x_i\leq x_0\), } \]nous en déduisons que la vraisemblance, en tant que fonction de \(x_0\), atteint son maximum lorsque \(x_0=T(x_{\bullet})= \displaystyle\overset{n}{\underset{i=1}{\min}} x_i\), c’est-à-dire :
\[ L(x_{\bullet}\ ;\ x_0)\leq L(x_{\bullet}\ ;\ \overset{n}{\underset{i=1}{\min}} x_i),\quad \forall x_0\in {\mathbb R}_+^{\star}, x_{\bullet}\in {\mathbb R}_+^n. \]Ainsi \(T(x_{\bullet})= \displaystyle\overset{n}{\underset{i=1}{\min}} x_i\) est une réalisation de l’estimateur du maximum de vraisemblance de \(x_0\). Cet estimateur a un biais ; en effet, un calcul direct nous donne :
\[ {\mathbb E}\lbrack \overset{n}{\underset{i=1}{\min}} X_i \rbrack =\frac{n\alpha}{n\alpha-1}x_0=x_0+\frac{1}{n\alpha-1}x_0. \]Nous remarquons que l’estimateur est asymptotiquement sans biais. Lorsque \(\alpha\) est inconnu, le biais ne peut pas être corrigé.
Application numérique. Nous avons enregistré 16 observations de durée dans le vecteur Obser dans R, sous forme d’années « décimales ». Nous les affichons avec la commande :
Obser ; réponse :
\(\ 6.76\) | \(\ 5.20\) | \(\ 6.44\) | \(\ 7.24\) | \(\ 7.12\) | \(\ 7.07\) | \(\ 7.98\) | \(\ 7.11\) |
\(\ 10.00\) | \(\ 9.14\) | \(\ 9.54\) | \(\ 8.95\) | \(\ 7.30\) | \(\ 6.74\) | \(\ 6.32\) | \(\ 8.12\) |
Nous calculons une réalisation de \(T(X_{\bullet}) =\displaystyle \overset{n}{\underset{i=1}{\min}} X_i\) avec la commande :
min(Obser) ; réponse : 5.20. \(\quad\square\)
Nous considérons la condition suivante :
- (CR 5). La dérivée d’ordre 3 de \(L(x_{\bullet}\ ;\ \theta)\) par rapport à \(\theta\) existe et elle est majorée par une fonction intégrable en \(x_{\bullet}\) et qui ne dépend pas de \(\theta\).
Cette condition est plus forte que (CR 4) qu’elle implique.
Propriété 1. Nous supposons que les conditions (CR 0), (CR 1), (CR 2) et (CR 3) sont satisfaites. Alors toute solution \(T_1(x_{\bullet})\) de l’équation de vraisemblance :
\[ \frac{\partial \ln L(x_{\bullet}\ ;\ \theta)}{\partial \theta}=0, \]est une réalisation d’un estimateur \(T_1(X_{\bullet})\) qui converge en probabilité vers la «vraie» valeur de \(\theta\). Si de plus la condition (CR 5) est satisfaite alors c’est également un estimateur asymptotiquement sans biais, efficace et normal. Nous avons alors :
\[ \lim_{n\rightarrow +\infty} {\cal L}_{\theta}\left(\sqrt{n}(T_1(X_{\bullet})-\theta)\right)={\cal N}(0\ ;\ \frac{1}{I(\theta)}), \]où \(I(\theta)\) est la quantité d’information de Fisher associée à \(\theta\). Si de plus l’équation admet une solution unique, alors c’est l’estimateur du maximum de vraisemblance \(T(X_{\bullet})\).
Remarque. Nous ne savons rien quant à la validité des conclusions de la propiété pour l’estimateur \(T(X_{\bullet}) = \displaystyle\overset{n}{\underset{i=1}{\min}} X_i\) du paramètre \(x_0\) de l’exemple 1. En effet la condition (CR 0) n’est pas satisfaite. Par contre, pour les deux exemples qui suivent, l’ensemble des conditions (CR) est vérifié.
Exemple 2. Soit \(X\) une v.a. suivant une loi de Poisson \({\cal P}(\lambda)\). Nous estimons le paramètre \(\lambda\in {\mathbb R}_+^{\star}\) avec \(X_{\bullet}\) un \(n-\)échantillon de \(X\). Le logarithme de la vraisemblance s’écrit :
\[ \ln L(x_{\bullet}\ ;\ \lambda)=-\lambda n + (\sum_{i=1}^nx_i)\ln\lambda - \prod_{i=1}^n(x_i!), \]et l’équation de vraisemblance :
\[ \frac{\partial \ln L(x_{\bullet}\ ;\ \lambda)}{\partial \theta}= -n + \frac{1}{\lambda}\sum_{i=1}^nx_i=0. \]Il est clair que la statistique \(T(X_{\bullet}) = {\overline X}=\displaystyle\frac{1}{n}\sum_{i=1}^n X_i\) est la solution unique de cette équation de vraisemblance. Comme les conditions (CR) sont satisfaites, nous avons toutes les conclusions de la propriété. Par ailleurs nous savons que cet estimateur de \(\lambda\) possède ces propriétés non seulement asymptotiquement, mais pour tout \(n\). \(\quad\square\)
Exemple 3. Très souvent nous n’avons pas de solution explicite de l’équation de vraisemblance. Dans ces cas nous résolvons numériquement cette équation pour l’échantillon observé. Soit \(X\) une v.a. suivant une loi de Cauchy \({\cal CA}(0\ ;\ \alpha)\). Les conditions (CR) sont satisfaites. Nous estimons \(\alpha\) à partir d’un échantillon de taille \(n=12\) que nous avons enregistré dans R :
Donnees ; réponse :
\(\ 4.339\) | \(\ 2.829\) | \(\ 3.654\) | \(\ 3.112\) | \(\ -1.276\) | \(\ -0.296\) | \(\ 5.577\) | \(\ -3.806\) | \(\ 1.341\) | \(\ -23.222\) | \(\ -2.022\) | \(\ 1.418\) |
Le logarithme de la vraisemblance s’écrit :
\[ \ln L(x_{\bullet}\ ;\ \alpha)=-12\ln\pi + 12\ln\alpha -\sum_{i=1}^{12}\ln(\alpha^2+x_i^2), \]et l’équation de vraisemblance :
\[ \frac{\partial \ln L(x_{\bullet}\ ;\ \alpha)}{\partial \alpha}= \frac{12}{\alpha} - \sum_{i=1}^{12}\frac{2\alpha}{\alpha^2+x_i^2}=0. \]C’est une équation polynomiale en \(\alpha\) de degré supérieur à 4 ; nous n’avons pas de solution explicite. Mais nous pouvons la résoudre numériquement avec les valeurs observées. Nous utilisons la procédure créée dans R MaxVraisCauchy. Après l’avoir sourcée, elle est exécutée en indiquant les observations ; voici les résultats :
MaxVraisCauchy(Donnees) ;
réponse :
Estimation ponctuelle du paramètre de la loi de Cauchy par le maximum de la vraisemblance :
alpha-chapeau = 2.628864
Valeur de l’équation de vraisemblance : 2.605366e-08
Nous nous contentons de l’approximation \(T(x_{\bullet})=2,628864\). C’est donc une réalisation d’un estimateur convergent, asymptotiquement sans biais, efficace et normal de \(\alpha\). \(\quad\square\)
Références. Des détails sur cette méthode sont donnés dans l’ouvrage de E. L. Lehmann, G. Casella (1998).
Haut de la page.