Tutorials de Statistique: 2013

mardi 9 avril 2013

Statistique descriptive : Caractéristiques d’une distribution. Tendance centrale et dispersion

Jusqu’à présent, nous nous sommes intéressés uniquement à la représentation des données statistiques. Cependant, s’il est vrai que les divers tableaux et graphes définis plus haut "résument" la distribution, ils ne permettent aucune quantification. Le but de ce paragraphe est donc de définir, pour chaque type de distribution statistique, un certain nombre de caractéristiques (ou indicateurs), c’est-à-dire quelques nombres permettant de résumer de manière quantitative (et non plus qualitative) chaque distribution. Bien entendu, n’importe quelle quantité ne peut pas être un indicateur.

En 1950, le statisticien Yule a donné un certain nombre de propriétés de "bon sens" que doivent, a priori, vérifier les indicateurs statistiques. Selon lui, ceux-ci doivent :

- être définis de manière objective (et donc être indépendants de l’observateur) ;

- utiliser toutes les observations ;

- avoir une signification concrète, afin d’être compris par les non-spécialistes ;

- être simples à calculer ;

- être peu sensibles aux fluctuations d’échantillonnage (notion introduite dans l’article suivant de ce traité) ;

- se prêter aisément aux opérations mathématiques simples.

Nous nous limiterons ici à 2 types de caractéristiques statistiques :

- celles dites de tendance centrale, qui donnent un "ordre de grandeur" de la variable étudiée en dégageant la modalité de la variable la plus représentative ;

- celles dites de dispersion qui, elles, fournissent des informations sur la façon dont les individus se répartissent (se "dispersent") autour de la tendance centrale.

Le tableau ci-dessous donne les caractéristiques étudiées pour chaque type de variable.

Caractéristiques d’une distribution
Type de la variable	Tendance centrale	Dispersion
Nominale	Mode
Ordinale	Mode, médiane, quantiles	Écart interquartile
Quantitative	Mode, médiane, quantiles, moyenne	Écart-type, écart interquartile

Caractéristiques de tendance centrale

Mode

Il est défini pour tous les types de variables.

Définition :
- si $X$ est une variable statistique nominale, ordinale ou discrète, le mode de la distribution associée est la modalité de $X$ la plus représentée, c’est-à-dire celle pour laquelle l’effectif est le plus grand ;
- si $X$ est une variable continue, le mode (ou classe modale) de la distribution associée est la classe dont la hauteur dans l’histogramme est la plus élevée.

Exemple : le mode dans l’exemple des CSP est la modalité "ouvrier" et la classe modale dans l’exemple d'après est la classe "[35,40[".

Médiane et quantiles

Ces indicateurs sont définis pour toutes les variables sauf les variables nominales. Donnons une première définition simple de la médiane :

"la médiane est la valeur de la variable telle que le nombre d’observations supérieures ou égales à cette valeur est égal au nombre d’observations strictement inférieures à cette valeur".

On voit que, par exemple, pour les variables continues, cela revient à chercher un $x$ tel que $F(x)=0,5$. En règle générale, cette valeur de $x$ n’existe pas dans le tableau de données dont on dispose. C’est pourquoi on adopte la définition suivante.

Définition : la médiane de la distribution de $X$ est donnée par :
- pour les variables ordinales ou discrètes :
• si la fréquence cumulée en $x_{i-1}$ est $< 0,5$ et celle en $x_i$ est $> 0,5$, alors la médiane vaut $x_i$,
• si la fréquence cumulée en $x_{i-1}$ est égale à $0,5$, alors la médiane vaut $x_i$;
- pour les variables continues, réparties en classes $[a_{i-1},a_i[$ :
• si $F(a_{i-1})<0,5$ et $F(a_i)>0,5$ , la classe médiane est et on calcule la médiane par interpolation linéaire sur l’intervalle $[a_{i-1},a_i[$ : $$\text{Med}=a_{i-1}+(a_i - a_{i-1})\frac{0,5 - F(a_{i-1})}{F(a_i)-F(a_{i-1})}$$ avec $F$ fonction de répartition de $X$ (figure ci-dessous).
• si $F(a_{i-1})=0,5$, la médiane vaut $a_{i-1}$.

Exemple : dans l’exemple ci-dessous, l’intervalle médian est $[35,40[$ car $F(35)=0,48<0,5<F(40)=0,78$. En appliquant la formule de la médiane, on obtient $\text{Med} = 35,33$.

Remarque : la médiane est peu sensible aux valeurs extrêmes de la variable, donc aux erreurs de mesures qui, bien souvent, produisent des valeurs aberrantes. On dit que la médiane est robuste ou résistante.

Cette notion de médiane peut se généraliser à celle de quantile.

Soit $\alpha$ dans l’intervalle $]0,1[$. Si $F(a_{i-1}<\alpha$ et $F(a_i)>\alpha$ on définit le nombre $Q_{\alpha}$, quantile d’ordre $\alpha$, par $$Q_{\alpha}=a_{i-1}+(a_{i}-a_{i-1})\frac{\alpha - F(a_{i-1})}{F(a_i)-F(a_{i-1})}$$.

Les cas particuliers les plus usités sont :
- les quartiles :
$Q_{0,25} =$ 1er quartile (pour l’exemple précédent, $Q_{0,25} =30,2$),
$Q_{0,5} =$ médiane,
$Q_{0,75} =$ dernier quartile (pour l’exemple précédent, $Q_{0,75} = 39,5$) ;
- les déciles ( $Q_{0,1}, Q_{0,2}, \ldots , Q_{0,9}$ ).

On peut, par ailleurs, définir la notion suivante : si $\alpha$ est dans $]0,\frac{1}{2}]$, l’intervalle de variation au risque est l’intervalle noté $$ I_{\alpha} = \left[Q_{\frac{\alpha}{2}},Q_{1-\frac{\alpha}{2}} \right]$$

À gauche et à droite de cet intervalle, il y a une proportion $\frac{\alpha}{2}$ d’individus (l’intervalle contient, de ce fait, une proportion $1-\alpha$ d’individus).

Par exemple, l’intervalle de variation au risque 1/2 est l’intervalle $[Q_{0,25},Q_{0,75}]$, celui-ci est représenté par le "Box Plot" (ou "boîte-à-pattes") :

Moyenne arithmétique

Elle n’est définie que pour les variables quantitatives et, pour celles-ci, c’est la caractéristique de tendance centrale la plus "naturelle" et la plus utilisée.

Notation : la moyenne (arithmétique) d’une variable $X$ sera notée $\bar{x}$ et $N=n_1 +n_2 +\ldots +n_k$.

On définit la moyenne arithmétique de la manière suivante :

Définition :
• si $X$ est une variable quantitative discrète, donnée par sa distribution d’effectifs $(x_i , n_i) \ i=1, \ldots ,k$ , alors la moyenne de $X$ est donnée par $$\bar{x}=\frac{1}{N}(n_1 x_1 + n_2 x_2 + \ldots + n_k x_k) = \frac{1}{N}\sum_{i=1}^{i=k}n_i x_i$$

• si $X$ est une variable continue rangée en classes $[a_{i-1},a_i [$ , la moyenne de $X$ est $$\bar{x}=\frac{1}{N}(n_1 c_1 + n_2 c_2 + \ldots + n_k c_k) = \frac{1}{N}\sum_{i=1}^{i=k}n_i c_i$$
où, pour tout $i$, $c_i$ est le centre de la classe $[a_{i-1},a_i ]$, soit $$c_i = \frac{a_i - a_{i-1}}{2}$$.
On dira qu’une variable est centrée si sa moyenne est nulle.

Remarques :
- la moyenne peut être définie à l’aide des fréquences : $\bar{x}=f_1 x_1 + f_2 x_2 + \ldots + f_k x_k$ pour les variables discrètes et $\bar{x}=f_1 c_1 + f_2 c_2 + \ldots + f_k c_k$ pour les variables continues ;
- il existe d’autres sortes de moyennes (géométrique, harmonique…) dont nous ne parlerons pas ici ;
- la moyenne, prenant en compte toutes les valeurs observées, est très sensible aux observations aberrantes ;
- chaque fois que la répartition est assez symétrique (ce qui se traduit par un histogramme proche d’une courbe « en cloche »), la moyenne, la médiane et le mode sont proches. La moyenne est plus élevée que le mode ou la médiane si la répartition est dissymétrique, avec un accent vers les valeurs élevées ; si l’accent est, par contre, sur les valeurs faibles, la moyenne est plus petite que le mode ou la médiane.

Caractéristiques de dispersion

Les caractéristiques de tendance centrale donnent un ordre de grandeur du caractère statistique observé. Il est intéressant d’obtenir des informations sur la variabilité des observations et de leur dispersion autour de la tendance centrale. Intuitivement, une "bonne" caractéristique de dispersion doit être telle que, plus la variabilité est grande autour de la tendance centrale correspondante, plus cette caractéristique doit être grande, et inversement lorsqu’il y a peu de dispersion, la caractéristique doit être voisine de 0. De plus, une
caractéristique de dispersion doit toujours être positive.

Écart interquartile

Il est défini pour toutes les variables, excepté les variables nominales.

Définition : l’écart interquartile est la distance entre le 1er et le 3e quartile. Il vaut donc $Q_{0,75}-Q_{0,25}$. Il représente les valeurs extrêmes d’une dispersion de 50 % des effectifs autour de la médiane.

Écart-type. Variance

Ils ne sont définis que pour les variables quantitatives.

Définition : la variance est la moyenne des carrés des écarts à la moyenne, c’est-à-dire :

- pour une variable discrète : $$Var(X)= \frac{1}{N} \left( \sum_{i=1}^{i=k}n_i (x_i -\bar{x})^2 \right) =\frac{1}{N} \left( \sum_{i=1}^{i=k}n_i x_i^2 \right) - \bar{x}^2$$

- pour une variable continue rangée en classes $[a_{i-1},a_i[$ , de centres $c_i$ : $$Var(X)= \frac{1}{N} \left( \sum_{i=1}^{i=k}n_i (c_i -\bar{x})^2 \right) =\frac{1}{N} \left( \sum_{i=1}^{i=k}n_i c_i^2 \right) - \bar{x}^2$$

Dans chaque cas, c’est la seconde expression qui sera le plus souvent utilisée pour effectuer les calculs.

L’écart-type est alors la racine carrée de la variance : $$\sigma (X)=\sqrt{Var(X)}$$

Exemple : dans l’exemple précédent, la moyenne vaut $35,65$ et la variance $56,4525$.

Statistique descriptive : Fréquences cumulées et fonction de répartition

Fréquences cumulées

Pour les variables qualitatives ordinales et pour les variables quantitatives, on peut exploiter la relation d’ordre existant entre les valeurs possibles de la variable. On définit ainsi les distributions cumulées (tableau ci-dessous).

Distributions cumulées
$i$	Valeurs	Effectifs	Fréquences	Effectifs Cumulés	Fréquences Cumulées
1	$x_1$	$n_1$	$f_1$	$n_1$	$f_1$
2	$x_2$	$n_2$	$f_2$	$n_1 + n_2$	$f_1 + f_2$
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
$k-1$	$x_{k-1}$	$n_{k-1}$	$f_{k-1}$	$n_1 + n_2 + \ldots + n_{k-1}$	$f_1 + f_2 + \ldots + f_{k-1}$
$k$	$x_k$	$n_k$	$f_k$	$n_1 + n_2 + \ldots + n_k = N$	$f_1 + f_2 + \ldots + f_k = 1$

Exemple : cette notion est illustrée à l’aide de l’exemple des CSP par le tableau ci-dessous:

Fonction de répartition

Cette notion ne concerne que les variables quantitatives.

Définition : la fonction de répartition du caractère $X$ est la fonction $F$ , allant de l’ensemble des réels vers $[0,1]$, définie par :

$F(x) = $ proportion d’individus de l’échantillon dont la valeur de $X$ est $< x$.

Dans la pratique, on ne l’utilisera que pour des variables continues. Pour ces dernières, la détermination de la fonction de répartition se fait de la manière suivante.

Soit $X$ une variable continue, dont les valeurs sont rangées en classes $[a_0 , a_1[ ,\ldots ,[a_{k-1},a_k[$ , avec des fréquences $f_1, \ldots , f_k$.

- On commence par calculer les valeurs de F aux points du découpage :
$$ F(a_0) = 0 , \ F(a_1)= f_1, \ \ldots , F(a_{k-1}) = f_1 + f_2 + \ldots +f_{k-1} , \ F(a_k) = f_1 + f_2 + \ldots + f_k $$.

- Ensuite, dans chaque classe $[a_{i-1},a_i[$, on fait une interpolation linéaire (on relie les points extrêmes par un segment de droite).

- Puis on prolonge la courbe par $0$ à gauche de $a_0$ et par $1$ à droite de $a_k$ (figure ci-dessous).

Exemple : cette notion est illustrée à l’aide de l’exemple des CSP par le tableau ci-dessous :

lundi 8 avril 2013

Statistique descriptive : Distributions statistiques et représentations associées

Définitions de base

Dans un premier temps, nous allons donner le vocabulaire de base de la statistique descriptive.

Définition : on appellera :
- individu, l’unité d’observation (exemples : entreprise, chaîne de production) ;
- population, l’ensemble des individus concernés par l’étude (exemples : ensemble des entreprises françaises, ensemble des pièces sortant de la chaîne) ;
- échantillon, un sous-ensemble de la population dont les individus feront l’objet de l’étude. Le choix de l’échantillon se fait en respectant certaines règles ;
- variable ou caractère statistique, l’aspect de l’unité statistiqueque l’on va étudier (exemples : situation géographique de l’entreprise, diamètre de la pièce…). On dira que cette variable prend des valeurs (ou modalités).

Types de variables statistiques

On peut définir quatre classes (ou types) dans lesquelles se répartissent les variables statistiques selon la nature de leurs valeurs. Les différents types de variables sont présentés ci-dessous:

Distributions statistiques. Effectifs, fréquences

Lorsque le recueil des données a été effectué, on dispose, pour chacun des individus de l’échantillon (ou de la population), de la valeur de la variable étudiée. Le premier traitement consiste alors à relever cette valeur pour chaque individu et ensuite à compter le nombre d’individus pour lesquels la variable prend une valeur donnée. On associe, à chaque valeur prise par le caractère statistique étudié, son effectif.

Notation : les variables seront notées par des lettres majuscules $ X, Y, Z, \ldots $ ; on note leurs modalités (valeurs) par des lettres minuscules $x_i , y_i , z_{\ell}, \ldots $ et les effectifs associés par $ n_i , n_j, n_{\ell}, \ldots $.

Exemple : $X =$ sexe, $x_1 =$ féminin, $x_2 =$ masculin, $n_1 =$ nombre de femmes, $n_2 =$ nombre d’hommes.

Ce traitement n’est bien sûr directement possible que pour les variables qualitatives ou discrètes, qui n’ont qu’un nombre limité de valeurs possibles, discernables entre elles. Pour les variables continues, on commence par ranger les observations en classes, celles-ci étant des intervalles de la forme $[a_{i – 1}, ai [$. Ensuite, pour chaque classe, on compte le nombre d’individus dont le caractère appartient à la classe : ce nombre est l’effectif de la classe. On note $k$ le nombre de modalités.

Définition : on appellera distribution statistique des effectifs de la variable $X$ :
- l’ensemble des données $(x_i , n_i), i=1, \ldots , k$ , si $X$ est une variable qualitative ou discrète,
- l’ensemble des données $([a_{i-1},a_i[, n_i), i=1, \ldots , k$ , si $X$ est une variable continue.

Les résultats sont généralement présentés dans un tableau ci-dessous :

Présentation des variables statistiques
$X$ est catégorielle, ordinale ou discrète		$X$ est continue
Classes	Effectifs	Classes	Effectifs
$x_1$	$n_1$	$[a_0;a_1[$	$n_1$
$x_2$	$n_2$	$[a_1;a_2[$	$n_2$
.	.	.	.
.	.	.	.
.	.	.	.
.	.	.	.
$x_k$	$n_k$	$[a_{k-1};a_k[$	$n_k$
Total	$N=n_1+n_2+\ldots+n_k$	Total	$N=n_1+n_2+\ldots+n_k$

Remarque : dans le cas des données individuelles (c’est-à-dire lorsque l’on ne regroupe pas les réponses), on a : $n_1 = n_2 = \ldots = n_k =1$ .

À la distribution d’effectifs définie ci-dessus, on préfère souvent la distribution de fréquences associée.

Définition : la fréquence (ou proportion) associée à la valeur $x_i$ du caractère (resp. à la classe $[a_{i-1};a_i[$ ) est la valeur $f_i$ définie par : $$f_i = \frac{n_i}{N}$$.

La fréquence $f_i$ représente donc la part de l’échantillon pour laquelle la valeur de la variable est $x_i$ (ou appartient à $[a_{i-1};a_i[$ ). On peut par exemple l’exprimer sous forme de pourcentages (le pourcentage sera alors $100 \times f_i$ ).

Remarque : cette quantité est indépendante de la taille de l’échantillon, ce qui permet de comparer les résultats obtenus sur plusieurs échantillons.

Les fréquences vérifient les propriétés suivantes : $$0 \le f_i \le 1 \ \ \ i=1, \ldots, k$$

$$ f_1 + f_2 + \ldots + f_k =1$$.

Exemple 1 : dans un échantillon de mille individus, on a fait le relevé de la catégorie socioprofessionnelle (CSP) (tableau ci-dessous).

Pour obtenir le tableau de fréquences, on divise, pour chaque modalité $i$, l’effectif $n_i$ par l’effectif total, c’est-à-dire ici $1 \ 000$. Par exemple, pour les ouvriers, on a une fréquence de $320/1 000 = 0,32$, ce qui correspond à $32 \%$.

Exemple : Effectifs et fréquences
$i$	CSP $x_i$	Effectif $n_i$	Fréquence $f_i$
1	Profession libérale, cadre supérieur	60	0,06
2	Patron	90	0,09
3	Employé, cadre moyen	170	0,17
4	Ouvrier	320	0,32
5	Retraité, inactif	230	0,23
6	Agriculteur	130	0,13
		Total : N : 1000	1

Représentations graphiques des distributions statistiques

Très souvent, on préfère des représentations graphiques à des tableaux. Les graphes apparaissent comme plus "parlants". Ces représentations sont adaptées au type de variable étudiée : nominale,

ordinale, discrète ou continue.

Variables nominales

On dispose pour ces variables de diagrammes en bâtons, ainsi que de diagrammes circulaires (ou en secteurs , ou en "camembert").

Remarque : les diagrammes donnés ici sont faits à partir du tableau de l’exemple précédent.

Diagramme en bâtons

À chaque modalité $x_i$, on associe un "bâton" de longueur $h_i$ proportionnelle à la fréquence $f_i$ (ou, si l’on veut, à l’effectif $n_i$ ). On a donc $h_i = Cte \times f_i$.

Pour une variable nominale, seules les hauteurs sont significatives ; l’ordre et l’écart des ne sont pas significatifs.

Diagramme circulaire

L’angle de chaque secteur $\alpha_i$ est proportionnel à la fréquence $f_i$. En degrés, on a $\alpha_i = 360 \times f_i$.

C’est la représentation la plus utilisée pour les variables nominales. De surcroît, elle est plus fidèle que la précédente.

Variables ordinales et variables discrètes

Variables ordinales

On utilise les mêmes représentations que pour les variables nominales. Toutefois, il convient de noter que, pour le diagramme en bâtons, l’ordre des modalités à un sens concret, car il doit correspondre à l’ordre existant entre les valeurs.

Variables discrètes

Pour ce type de variables, on préfère le diagramme en bâtons car, dans ce cas, l’ordre et l’écart entre les bâtons sont significatifs.

Variables continues : histogramme, polygone des fréquences, diagramme "branche et feuille"

On considère une variable statistique continue dont les valeurs ont été rangées en classes $[a_{i-1}, a_i[$. L’amplitude de la classe $[a_{i-1}, a_i[$ est $A_i = a_i - a_{i-1}$.

Pour représenter graphiquement la distribution statistique d’une telle variable, on a recours à un histogramme. Le principe est le suivant : à chaque classe, on fait correspondre un rectangle de base l’intervalle $[a_{i-1}, a_i[$ (pour la classe $i$ ) et de hauteur $h_i$, de sorte que la surface du rectangle soit proportionnelle à l’effectif.

Ainsi, on calcule la hauteur $h_i$ du rectangle au moyen de la formule suivante : $$h_i = \frac{n_i}{a_i - a_{i-1}}$$

D’un point de vue pratique, on constituera un tableau du type du tableau ci-dessous:

Variables continues : amplitudes et fréquences
$i$	Classes	Effectifs $n_i$	Fréquences $f_i$	Amplitudes $A_i$	Hauteurs $h_i$
1	$[a_0 , a_1[$	$n_1$	$f_1$	$a_1 - a_0$	$\frac{n_1}{a_1- a_0}$
2	$[a_1 , a_2[$	$n_2$	$f_2$	$a_2 - a_1$	$\frac{n_2}{a_2- a_1}$
.	.	.	.	.	.
.	.	.	.	.	.
.	.	.	.	.	.
k	$[a_{k-1} , a_k[$	$n_k$	$f_k$	$a_k - a_{k-1}$	$\frac{n_k}{a_k- a_{k-1}}$

On obtient ainsi le graphique de la figure ci-dessous:

- en abscisse, on porte l’ensemble des valeurs prises par la variable, découpé en classes ;

- en ordonnée, on porte les hauteurs : $$h_i = \frac{n_i}{a_i - a_{i-1}}$$

- on trace enfin des rectangles.

Remarque : si les amplitudes sont toutes égales, on porte les effectifs en ordonnée.

Exemple : dans une entreprise comptant 150 ouvriers, on a relevé l’âge de ceux-ci. Les résultats de l’enquête sont donnés dans le tableau ci-dessous.

À partir de l’histogramme d’une variable statistique continue, on peut tracer le polygone des fréquences
associé (figure ci-dessous) en procédant de la manière suivante :
- on joint par des morceaux de droites les milieux des segments horizontaux supérieurs des rectangles de l’histogramme ;
- on ajoute à droite et à gauche de l’histogramme des classes fictives, toutes deux de même amplitude et d’effectif nul, ce qui donne alors lieu à deux nouveaux segments.

Remarque : on ne doit pas "lisser" la courbe.

En dernier lieu, lorsque l’on étudie un échantillon de faible taille ( $N < 100$) et que l’on dispose des données individuelles, on peut dresser, pour la variable étudiée, un diagramme dit branche et feuille (en anglais stem and leaf), qui a l’avantage de conserver l’information de la répartition à l’intérieur des classes.

Principe : dans tout nombre, on peut distinguer deux parties : un chiffre de « plus haut poids » (branche) et un chiffre de "plus bas poids" (feuille). Dans l’exemple ci-dessous, les branches correspondent aux dizaines et les feuilles aux unités.

Exemple : on a 61 données portant sur le temps d’exécution d’une tâche (en minutes): 20, 21, 25, 25, 26, 26,26, 27, 27, 27, 28, 29, 30, 30, 30, 31, 31, 32, 32, 32, 32, 33, 33, 33, 33, 33, 34, 34, 35, 35, 36, 37, 37, 38, 38, 39, 40, 40, 40, 41, 41, 42, 42, 42, 43, 44, 45, 46, 48, 48, 49, 50, 50, 53, 53, 53, 53, 53, 53, 54, 54.

On le résume dans le diagramme "branche et feuille" suivant :