mardi 9 avril 2013

Statistique descriptive : Caractéristiques d’une distribution. Tendance centrale et dispersion

Jusqu’à présent, nous nous sommes intéressés uniquement à la représentation des données statistiques. Cependant, s’il est vrai que les divers tableaux et graphes définis plus haut "résument" la distribution, ils ne permettent aucune quantification. Le but de ce paragraphe est donc de définir, pour chaque type de distribution statistique, un certain nombre de caractéristiques (ou indicateurs), c’est-à-dire quelques nombres permettant de résumer de manière quantitative (et non plus qualitative) chaque distribution. Bien entendu, n’importe quelle quantité ne peut pas être un indicateur.
En 1950, le statisticien Yule a donné un certain nombre de propriétés de "bon sens" que doivent, a priori, vérifier les indicateurs statistiques. Selon lui, ceux-ci doivent :
- être définis de manière objective (et donc être indépendants de l’observateur) ;
- utiliser toutes les observations ;
- avoir une signification concrète, afin d’être compris par les non-spécialistes ;
- être simples à calculer ;
- être peu sensibles aux fluctuations d’échantillonnage (notion introduite dans l’article suivant de ce traité) ;
- se prêter aisément aux opérations mathématiques simples.
Nous nous limiterons ici à 2 types de caractéristiques statistiques :
- celles dites de tendance centrale, qui donnent un "ordre de grandeur" de la variable étudiée en dégageant la modalité de la variable la plus représentative ;
- celles dites de dispersion qui, elles, fournissent des informations sur la façon dont les individus se répartissent (se "dispersent") autour de la tendance centrale.

Le tableau ci-dessous donne les caractéristiques étudiées pour chaque type de variable.

Caractéristiques d’une distribution
Type de la variable
Tendance centrale
Dispersion
Nominale Mode
Ordinale Mode, médiane,
quantiles
Écart interquartile
Quantitative Mode, médiane,
quantiles, moyenne
Écart-type,
écart interquartile

Caractéristiques de tendance centrale

Mode

Il est défini pour tous les types de variables.

Définition :
- si $X$ est une variable statistique nominale, ordinale ou discrète, le mode de la distribution associée est la modalité de $X$ la plus représentée, c’est-à-dire celle pour laquelle l’effectif est le plus grand ;
- si $X$ est une variable continue, le mode (ou classe modale) de la distribution associée est la classe dont la hauteur dans l’histogramme est la plus élevée.

Exemple : le mode dans l’exemple des CSP est la modalité "ouvrier" et la classe modale dans l’exemple d'après est la classe "[35,40[".

Médiane et quantiles

Ces indicateurs sont définis pour toutes les variables sauf les variables nominales. Donnons une première définition simple de la médiane :

"la médiane est la valeur de la variable telle que le nombre d’observations supérieures ou égales à cette valeur est égal au nombre d’observations strictement inférieures à cette valeur".  

On voit que, par exemple, pour les variables continues, cela revient à chercher un $x$ tel que $F(x)=0,5$. En règle générale, cette valeur de $x$ n’existe pas dans le tableau de données dont on dispose. C’est pourquoi on adopte la définition suivante.

Définition : la médiane de la distribution de $X$ est donnée par : 
- pour les variables ordinales ou discrètes :
   • si la fréquence cumulée en $x_{i-1}$ est $< 0,5$ et celle en $x_i$ est $> 0,5$, alors la médiane vaut $x_i$,
   • si la fréquence cumulée en $x_{i-1}$ est égale à $0,5$, alors la médiane vaut $x_i$;
- pour les variables continues, réparties en classes $[a_{i-1},a_i[$ :
   • si $F(a_{i-1})<0,5$ et $F(a_i)>0,5$ , la classe médiane est et on calcule la médiane par interpolation linéaire sur l’intervalle $[a_{i-1},a_i[$ : $$\text{Med}=a_{i-1}+(a_i - a_{i-1})\frac{0,5 - F(a_{i-1})}{F(a_i)-F(a_{i-1})}$$ avec $F$ fonction de répartition de $X$ (figure ci-dessous).
   • si $F(a_{i-1})=0,5$, la médiane vaut $a_{i-1}$.

Exemple : dans l’exemple ci-dessous, l’intervalle médian est $[35,40[$ car $F(35)=0,48<0,5<F(40)=0,78$. En appliquant la formule de la médiane, on obtient $\text{Med} = 35,33$.



Remarque : la médiane est peu sensible aux valeurs extrêmes de la variable, donc aux erreurs de mesures qui, bien souvent, produisent des valeurs aberrantes. On dit que la médiane est robuste ou résistante.

Cette notion de médiane peut se généraliser à celle de quantile.


Soit $\alpha$ dans l’intervalle $]0,1[$. Si $F(a_{i-1}<\alpha$ et $F(a_i)>\alpha$ on définit le nombre $Q_{\alpha}$, quantile d’ordre $\alpha$, par $$Q_{\alpha}=a_{i-1}+(a_{i}-a_{i-1})\frac{\alpha - F(a_{i-1})}{F(a_i)-F(a_{i-1})}$$.

Les cas particuliers les plus usités sont :
- les quartiles :
   $Q_{0,25} =$ 1er quartile (pour l’exemple précédent, $Q_{0,25} =30,2$),
   $Q_{0,5} =$ médiane,
   $Q_{0,75} =$ dernier quartile (pour l’exemple précédent, $Q_{0,75} = 39,5$) ;
- les déciles ( $Q_{0,1}, Q_{0,2}, \ldots , Q_{0,9}$ ).


On peut, par ailleurs, définir la notion suivante : si $\alpha$ est dans $]0,\frac{1}{2}]$, l’intervalle de variation au risque est l’intervalle noté $$ I_{\alpha} = \left[Q_{\frac{\alpha}{2}},Q_{1-\frac{\alpha}{2}} \right]$$


À gauche et à droite de cet intervalle, il y a une proportion $\frac{\alpha}{2}$ d’individus (l’intervalle contient, de ce fait, une proportion $1-\alpha$ d’individus).


Par exemple, l’intervalle de variation au risque 1/2 est l’intervalle $[Q_{0,25},Q_{0,75}]$, celui-ci est représenté par le "Box Plot" (ou "boîte-à-pattes") :
Moyenne arithmétique

Elle n’est définie que pour les variables quantitatives et, pour celles-ci, c’est la caractéristique de tendance centrale la plus "naturelle" et la plus utilisée.

Notation : la moyenne (arithmétique) d’une variable $X$ sera notée $\bar{x}$ et $N=n_1 +n_2 +\ldots +n_k$.

On définit la moyenne arithmétique de la manière suivante :

Définition :
• si $X$ est une variable quantitative discrète, donnée par sa distribution d’effectifs $(x_i , n_i) \ i=1, \ldots ,k$ , alors la moyenne de $X$ est donnée par $$\bar{x}=\frac{1}{N}(n_1 x_1 + n_2 x_2 + \ldots + n_k x_k) = \frac{1}{N}\sum_{i=1}^{i=k}n_i x_i$$

• si $X$ est une variable continue rangée en classes $[a_{i-1},a_i [$ , la moyenne de $X$ est $$\bar{x}=\frac{1}{N}(n_1 c_1 + n_2 c_2 + \ldots + n_k c_k) = \frac{1}{N}\sum_{i=1}^{i=k}n_i c_i$$
où, pour tout $i$, $c_i$ est le centre de la classe $[a_{i-1},a_i ]$, soit $$c_i = \frac{a_i - a_{i-1}}{2}$$.
On dira qu’une variable est centrée si sa moyenne est nulle.


Remarques :
- la moyenne peut être définie à l’aide des fréquences : $\bar{x}=f_1 x_1 + f_2 x_2 + \ldots + f_k x_k$  pour les variables discrètes et $\bar{x}=f_1 c_1 + f_2 c_2 + \ldots + f_k c_k$ pour les variables continues ;
- il existe d’autres sortes de moyennes (géométrique, harmonique…) dont nous ne parlerons pas ici ;
- la moyenne, prenant en compte toutes les valeurs observées, est très sensible aux observations aberrantes ;
- chaque fois que la répartition est assez symétrique (ce qui se traduit par un histogramme proche d’une courbe « en cloche »), la moyenne, la médiane et le mode sont proches. La moyenne est plus élevée que le mode ou la médiane si la répartition est dissymétrique, avec un accent vers les valeurs élevées ; si l’accent est, par contre, sur les valeurs faibles, la moyenne est plus petite que le mode ou la médiane.


Caractéristiques de dispersion


Les caractéristiques de tendance centrale donnent un ordre de grandeur du caractère statistique observé. Il est intéressant d’obtenir des informations sur la variabilité des observations et de leur dispersion autour de la tendance centrale. Intuitivement, une "bonne" caractéristique de dispersion doit être telle que, plus la variabilité est grande autour de la tendance centrale correspondante, plus cette caractéristique doit être grande, et inversement lorsqu’il y a peu de dispersion, la caractéristique doit être voisine de 0. De plus, une
caractéristique de dispersion doit toujours être positive.

  • Écart interquartile
Il est défini pour toutes les variables, excepté les variables nominales.

Définition : l’écart interquartile est la distance entre le 1er et le 3e quartile. Il vaut donc $Q_{0,75}-Q_{0,25}$. Il représente les valeurs extrêmes d’une dispersion de 50 % des effectifs autour de la médiane.
  • Écart-type. Variance
Ils ne sont définis que pour les variables quantitatives.

Définition : la variance est la moyenne des carrés des écarts à la moyenne, c’est-à-dire :

- pour une variable discrète : $$Var(X)= \frac{1}{N} \left( \sum_{i=1}^{i=k}n_i (x_i -\bar{x})^2 \right) =\frac{1}{N} \left( \sum_{i=1}^{i=k}n_i x_i^2 \right) - \bar{x}^2$$
- pour une variable continue rangée en classes $[a_{i-1},a_i[$ , de centres $c_i$ : $$Var(X)= \frac{1}{N} \left( \sum_{i=1}^{i=k}n_i (c_i -\bar{x})^2 \right) =\frac{1}{N} \left( \sum_{i=1}^{i=k}n_i c_i^2 \right) - \bar{x}^2$$
Dans chaque cas, c’est la seconde expression qui sera le plus souvent utilisée pour effectuer les calculs.
L’écart-type est alors la racine carrée de la variance : $$\sigma (X)=\sqrt{Var(X)}$$


Exemple : dans l’exemple précédent, la moyenne vaut $35,65$ et la variance $56,4525$.


Aucun commentaire:

Enregistrer un commentaire