Soit \(X\) une v.a. et \({\mathfrak L}\) un ensemble de lois de probabilité. Nous supposons que cet ensemble est la réunion disjointe de deux sous-ensembles \({\mathfrak L}_0\) et \({\mathfrak L}_1\).
Définition 1. Nous appelons hypothèse statistique, ou simplement hypothèse, la supposition \({\cal L}(X)\in{\mathfrak L}\). Ceci est noté \({\cal H}=\lbrace {\cal L}(X)\in{\mathfrak L}\rbrace\). Nous appelons alternative la donnée de deux hypothèses \({\cal H}_0=\lbrace {\cal L}(X)\in{\mathfrak L_0}\rbrace\) contre \({\cal H}_1=\lbrace {\cal L}(X)\in{\mathfrak L_1}\rbrace\). La première hypothèse \({\cal H}_0\) est l’hypothèse nulle et \({\cal H}_1\) est La contre-hypothèse.
Exemple 1. Soit \({\mathfrak L}=\lbrace {\cal P}(\lambda),\ \lambda\in {\mathbb R}_+\rbrace\) l’ensemble des lois de Poisson. Alors une hypothèse est \({\cal H}=\lbrace {\cal L}(X)\in{\mathfrak L}\rbrace\).
Exemple 2. Soit \(X=\sideset{^t}{}{(X_1,\ X_2)}\) un v.a. et \({\mathfrak L}={\mathfrak L_1}\otimes{\mathfrak L_2}\), c’est-à-dire l’ensemble des lois sur \(({\mathbb R}^2,\ {\cal B}_2)\) produit de deux lois marginales. Alors une hypothèse est \({\cal H}=\lbrace {\cal L}(X)\in{\mathfrak L}\rbrace=\lbrace X_1,\ X_2\) sont indépendantes\(\rbrace\).
Exemple 3. Soit \(X\) une v.a. suivant une loi Normale \({\cal N}(\mu\ ;\ \sigma^2)\) avec \(\sideset{^t}{}{(\mu,\ \sigma)}\in{\mathbb R}\times{\mathbb R}_+^{\star}\). Alors une hypothèse peut être \({\cal H}=\lbrace \mu=10\rbrace\) ; une autre hypothèse peut être \({\cal H}^{\prime}=\lbrace \sigma\in\rbrack 0\ ;\ 1\lbrack\rbrace\) ; encore une autre hypothèse peut être \({\cal H}^{\prime\prime}=\lbrace 20\leq \mu \leq 30,\ 2 < \sigma< +\infty\rbrace\).
Remarque 1. Ainsi nous constatons qu’une hypothèse peut concerner le type de loi (Exemple 1), la structure de la loi sans connaître celle-ci (Exemple 2) ou encore, connaissant la loi de la v.a. étudiée, les valeurs d’un ou plusieurs paramètres de cette dernière (Exemple 3).
Revenons à deux ensembles disjoints de lois \({\mathfrak L}_0\) et \({\mathfrak L}_1\), leur union ne recouvrant pas nécessairement l’ensemble des lois de probabilités. Nous admettons être dans l’alternative soit \({\cal H}_0=\lbrace {\cal L}(X)\in{\mathfrak L}_0\rbrace\), soit \({\cal H}_1=\lbrace {\cal L}(X)\in{\mathfrak L}_1\rbrace\) ; pour le phénomène étudié, nous n’avons pas d’autre possibilité. Soit \(X_{\bullet}\) un \(n-\)échantillon de \(X\).
Définition 2. Nous appellons test statistique, ou simplement test, non aléatoire de l’altenative \({\cal H}_0\) contre \({\cal H}_1\) toute application \(\psi : {\mathbb R}^n \longrightarrow\lbrace0,\ 1\rbrace\) telle que \(\psi(X_{\bullet})\) soit une v.a. sur laquelle, pour toute réalisation \(X_{\bullet}=x_{\bullet}\), nous fondons le processus de décision suivant :
\[ \begin{cases} {\it si}\quad \psi(x_{\bullet})=0 \quad {\it alors\ nous\ d\acute{e}cidons\ }{\cal H}_0\ {\it est\ vraie},\\ {\it si}\quad \psi(x_{\bullet})=1 \quad {\it alors\ nous\ d\acute{e}cidons\ }{\cal H}_1\ {\it est\ vraie}. \end{cases} \]Définition 3. Lors de la réalisation d’un test statistique il y a deux erreurs possibles :
Nous pouvons résumer la situation avec le tableau suivant :
Décision | |||
\({\cal H}_0\) est vraie | \({\cal H}_1\) est vraie | ||
Réalité | \({\cal H}_0\) est vraie | Bonne décision | Erreur de première espèce |
\({\cal H}_1\) est vraie | Erreur de deuxième espèce | Bonne décision |
Remarque 2. Le fait de décider que, par exemple, «\({\cal H}_1\) est vraie» n’implique pas que ceci soit conforme à la réalité. Nous n’avons aucun moyen d’en être sûrs. Ce sont les propriétés de \(\psi\) qui nous permettront de faire confiance à notre décision. Mais en principe, en supposant que notre échantillon est bien représentatif de toute la population étudiée et que nous n’avons pas observé un événement rare, nous admettrons, jusqu’à nouvel ordre, que notre décision correspond à la réalité. Cependant si dans la suite de notre démarche les résultats semblent contradictoires ou incohérents, il ne faudra pas hésiter à remettre en cause la décision que nous avons prise lors du test.
Remarque 3. Concrètement, un test non aléatoire est l’indicatrice d’un ensemble de \({\mathbb R}^n\). Précisément nous posons :
Définition 4. Nous appellons région critique ou de rejet (de \({\cal H}_0\)) du test \(\psi\) l’ensemble \(R_{\psi}=\lbrace x\in{\mathbb R}^n : \psi(x)=1\rbrace\). L’ensemble complémentaire \(A_{\psi}=R_{\psi}^c=\lbrace x\in{\mathbb R}^n : \psi(x)=0\rbrace\) est la région d’acceptation (de \({\cal H}_0\)) du test. Lorsque la région critique est un intervalle ses bornes sont appelées valeurs critiques.
Remarque 4. Comme pour l’Estimation, dans la plupart des cas un test est fonction d’une statistique \(\psi(x_{\bullet})=\psi(T(x_{\bullet}))\). C’est la statistique du test. Ainsi la région critique est définie à partir des réalisations de cette statistique.
Remarque 5. Si nous interprétons un test \(\psi\) comme la probabilité de décider «\({\cal H}_1\) est vraie». Nous pouvons alors envisager d’étendre les valeurs de \(\psi\) à tout l’intervalle \(\lbrack 0\ ;\ 1\rbrack\). Il devient alors un test aléatoire. Nous présentons de tels tests dans des situtions bien précises pour des v.a. discrètes. Ainsi quand \(\psi(x_{\bullet})=\gamma,\ 0 < \gamma < 1\), nous devons décider «\({\cal H}_1\) est vraie» avec une probabilté \(\gamma\). Ceci peut se faire de la manière suivante :
- réaliser une observation \(u\) d’une loi Uniforme continue
\({\cal U}(\rbrack 0\ ;\ 1\lbrack)\), par exemple la simuler avec la commande de R
runif ;
- si \(u \leq \gamma\) décider \({\cal H}_1\) est vraie ;
- si \(\gamma < u\) décider \({\cal H}_0\) est vraie.
En effet nous savons que si \({\cal L}(U)={\cal U}(\rbrack 0\ ;\ 1\lbrack)\) alors \(P(U\leq \gamma)=\gamma\).
Principe général. Tous les tests statistiques sont fondés sur la démarche suivante :
- supposer que \({\cal H}_0\) est vraie et définir alors un événement rare à partir d’un échantillon ou d’une statistique ;
- observer un échantillon et constater si l’événement est réalisé ou pas ;
- s’il l’est, alors décider \({\cal H}_1\) est vraie ;
- s’il ne l’est pas, alors décider \({\cal H}_0\) est vraie.
Interprétation. En effet, lors d’un seul échantillon, nous admettons le principe qu’un événement rare ne doit pas se réaliser. Si malgré tout il se réalise, alors nous en déduisons que notre hypothèse «\({\cal H}_0\) est vraie» est fausse, c’est-à-dire que nous décidons «\({\cal H}_1\) est vraie». Nous avons suffisamment d’éléments pour changer d’avis. Nous disons alors que le test est significatif. Si par contre l’événement rare n’est pas réalisé, nous n’avons pas d’éléments pour changer d’avis ; faute de mieux nous gardons «\({\cal H}_0\) est vraie». Nous disons que le test est non significatif.
Haut de la page.