Soit \(X\) une v.a. dont la loi dépend d’un paramètre \(\theta \in \Theta\subset {\mathbb R}\). Nous présentons la méthode d’estimation fondée sur la Théorie de la Décision en statistique, elle même construite sur les idées de Th. Bayes et développée par A. Wald. Le cas multivarié se traite de manière analogue.
Définition 1. Nous appelons loi de probabilité a priori toute loi de probabilité sur l’espace \((\Theta,\ {\cal B}_{\Theta})\) qui ne dépend pas de \(X\). Nous la notons \(p(\theta)\), que ce soit une probabilité (cas discret) ou une densité (cas continu).
Interprétation. Une probabilité a priori représente la connaissance que nous avons, avant observation, du paramètre \(\theta\).
Dans toutes les formules générales nous écrivons les espérances sous forme d’intégrales (cas continu). Le cas discret s’obtient en remplaçant ces dernières par des sommes. Nous illustrons la méthode d’estimation de Bayes avec un exemple qui est repris tout au long de cette page.
Exemple. Nous notons \(X\) le nombre annuel de sinistres d’une police d’assurance choisie au hasard dans un portefeuille. Si celui-ci est homogène, c’est-à-dire si la sinistralité est la même pour toutes les polices, un modèle très souvent applicable est la loi de Poisson : \({\cal L}(X)={\cal P}(\lambda), \ \lambda \in {\mathbb R}_+^{\star}\). Si le portefeuille est hétérogène, une bonne description de la réalité en général est de considérer que, lors du choix d’une police, le paramètre \(\lambda\) est lui-même une réalisation d’une v.a. \(\Lambda\) de loi Gamma : \({\cal L}(\Lambda)={\cal GA}(\alpha\ ;\ \beta),\ \alpha,\ \beta \in {\mathbb R}_+^{\star}\), qui est donc la loi a priori du paramètre.
Propriété 1. Soit \(f(x \vert \theta)\) la densité de \(X\) conditionellement à \(\theta\). La densité marginale de \(X\) est donnée par :
\[ f(x)=\int_{\Theta}f(x \vert \theta) p(\theta)d\theta,\quad \forall x\in {\mathbb R}. \]La loi conditionnelle de \(\theta\) par rapport à \(X=x\) est :
\[ p(\theta\vert x)=\frac{f(x \vert \theta) p(\theta)}{f(x)},\quad \forall x\in {\mathbb R},\ \theta\in\Theta. \]C’est la formule de Bayes. Elle définit une loi de probabilité sur \((\Theta,\ {\cal B}_{\Theta})\) appelée loi de probabilité a posteriori.
Interprétation. La probabilité a posteriori traduit les modifications apportées sur \(p(\theta)\) par l’observation de \(x\).
Exemple. En appliquant les formules précédentes nous obtenons que la loi marginale de \(X\) est la loi Binomiale Négative : \({\cal BN}(\alpha\ ;\ \displaystyle\frac{\beta}{\beta+1})\). La loi a posteriori de \(\Lambda\), ayant observé \(X=x\) est la loi Gamma :
\[ {\cal L}(\Lambda\vert X=x)={\cal GA}(\alpha+x\ ;\ \beta+1),\quad \forall x\in {\mathbb R}. \]Si \(x_{\bullet}\) est un \(n-\)échantillon de \(X\), alors la loi marginale de \(X_{\bullet}\) n’est pas le produit des probabilités de la loi binomiale négative précédente, nous verrons son expression dans la suite de la page. La loi a posteriori de \(\Lambda\), quant à elle, est encore une loi Gammma :
\[ {\cal L}(\Lambda\vert X_{\bullet}=x_{\bullet})={\cal GA}(\alpha+\sum_{i=1}^nx_i\ ;\ \beta+n),\quad \forall x\in {\mathbb R}. \]Définition 2. Nous considérons l’espace, noté \(({\mathbb D},\ {\cal B}_{\mathbb D})\), des actions possibles de l’utilisateur. Nous appelons règle de décision toute v.a. \(d=d(X_{\bullet})\), qui à tout échantillon associe une action de \({\mathbb D}\). Nous appelons fonction de perte \(l(d\ ;\ \theta)\), toute fonction définissant une v.a. qui mesure la perte subie lorsque \(\theta\) est la valeur du paramètre et \(d\) la règle de décision utilisée.
Remarque. Dans l’estimation ponctuelle nous posons \({\mathbb D}=\Theta\) et, en général, \(l(d\ ;\ \theta)=(d-\theta)^2\). Une règle de décision est un estimateur.
Définition 3. Une décision \(d_B=d_B(X_{\bullet})\) est appelée règle de décision de Bayes par rapport à la loi a priori \(p(\theta)\) si elle minimise la perte moyenne, appelée fonction de risque et notée \(r(d_B\ ;\ p)\) ; c’est-à-dire :
\[ r(d_B\ ;\ p)\leq r(d\ ;\ p)=\int_{{\mathbb R}^n}\int_{\Theta}l(d(x_{\bullet})\ ;\ \theta)L(x_{\bullet}\ ;\ \theta)p(\theta)d\theta dx_{\bullet},\quad \forall d\in {\mathbb D}. \]Dans le cadre de l’estimation ponctuelle paramétrique, une telle règle est appelée estimateur de Bayes.
Propriété 2. Si une règle de décision \(d_0\) est telle que :
\[ \int_{\Theta}l(d_0(x_{\bullet})\ ;\ \theta)p(\theta)d\theta\leq \int_{\Theta}l(d(x_{\bullet})\ ;\ \theta)p(\theta)d\theta,\quad \forall x_{\bullet}\in {\mathbb R}^n,\ d\in {\mathbb D}, \]alors \(d_0=d_B\) est une règle de Bayes par rapport à la loi a priori \(p(\theta)\).
Pour le voir il suffit de noter que :
\[ L(x_{\bullet})\ ;\ \theta)p(\theta)=p(\theta\vert x_{\bullet})f(x_{\bullet}),\quad \forall x_{\bullet}\in {\mathbb R}^n,\ \theta\in \Theta. \quad\square \]Propriété 3. Si la fonction de perte, dans le cadre de l’estimation ponctuelle, est la fonction quadratique de la remarque précédente, alors l’estimateur de Bayes par rapport à la loi a priori \(p(\theta)\) est l’espérance de la loi a posteriori, c’est-à-dire :
\[ T_B(x_{\bullet})=\int_{\Theta} \theta p(\theta\vert x_{\bullet})d\theta,\quad \forall x_{\bullet}\in {\mathbb R}^n. \]Exemple. Nous avons vu que la loi a posteriori de \(\Lambda\), ayant observé \(X_{\bullet}=x_{\bullet}\) est la loi Gamma :
\[ {\cal L}(\Lambda\vert X_{\bullet}=x_{\bullet})={\cal GA}(\alpha+\sum_{i=1}^nx_i\ ;\ \beta+n),\quad \forall x\in {\mathbb R}. \]Des propriétés de cette loi nous déduisons :
\[ T_B(x_{\bullet})=\frac{\alpha+\sum_{i=1}^nx_i}{\beta+n},\quad \forall \alpha,\ \beta\in {\mathbb R}_+^{\star},\ x_{\bullet}\in {\mathbb R}^n. \]Remarquons que lorsque \(\alpha,\ \beta\longrightarrow 0\), alors \(T_B(x_{\bullet})\longrightarrow {\overline x}\), qui est l’estimation par le maximun de la vraisemblance de \(\lambda\), lorsque ce paramètre est fixe. La loi a priori peut s’interpéter dans ce cas comme la mesure uniforme sur \(({\mathbb R}^2,\ {\cal B}_{{\mathbb R}^2})\), qui correspond à une ignorance totale sur les paramètres. Notons également qu’en général les paramètres de la loi a priori ne sont pas connus. Nous pouvons alors utiliser la notion suivante.
Définition 4. Lorsque la loi a priori est paramétrique et que ses paramètres sont inconnus, nous pouvons les estimer avec la loi marginale de \(X_{\bullet}\). L’estimateur \(T_B(X_{\bullet})\) est alors appelé estimateur de Bayes empirique
Exemple. La loi marginale de \(X_{\bullet}\) s’écrit :
\[ P(X_{\bullet}=x_{\bullet})=\int_{{\mathbb R}_+}L(x_{\bullet} \vert \lambda) p(\lambda)d\lambda=\frac{\beta^{\alpha}\Gamma(\alpha+\sum_{i=1}^nx_i)} {(\beta+n)^{\alpha+\sum_{i=1}^nx_i}\Gamma(\alpha)\prod_{i=1}^n\Gamma(\alpha+x_i)}. \]La dérivations des équations de vraisemblance nous donne des estimations \({\widehat \alpha}(x_{\bullet}),\ {\widehat \beta}(x_{\bullet})\) satisfaisant aux équations :
\[ {\widehat \beta}(x_{\bullet})=\frac{{\widehat \alpha}(x_{\bullet})}{{\overline x}},\quad {\rm et}\quad \frac{\partial \ln(\Gamma({\widehat \alpha}+n{\overline x}))}{\partial \alpha} - \ln({\widehat \alpha}+n{\overline x})=\frac{\partial \ln(\Gamma({\widehat \alpha}))}{\partial \alpha} - \ln({\widehat \alpha}). \]Ce système, qui ne peut être résolu que numériquement, nous donne l’estimateur de Bayes empirique dans notre cas.
\[ T_B(x_{\bullet})=\frac{{\widehat \alpha}(x_{\bullet})+\sum_{i=1}^nx_i}{{\widehat \beta}(x_{\bullet})+n},\quad \forall x_{\bullet}\in {\mathbb R}^n. \]Nous obtenons ainsi une estimation de la sinistralité globale du portefeuille.
Références. Des détails sur la Théorie de la Décision en Statistique sont donnés dans les travaux de A. Wald (1939 et 1950).
Haut de la page.