lundi 8 avril 2013

Statistique descriptive : Distributions statistiques et représentations associées


Définitions de base

Dans un premier temps, nous allons donner le vocabulaire de base de la statistique descriptive.

Définition :  on appellera :
- individu, l’unité d’observation (exemples : entreprise, chaîne de production) ;
- population, l’ensemble des individus concernés par l’étude (exemples : ensemble des entreprises françaises, ensemble des pièces sortant de la chaîne) ;
- échantillon, un sous-ensemble de la population dont les individus feront l’objet de l’étude. Le choix de l’échantillon se fait en respectant certaines règles ;
- variable ou caractère statistique, l’aspect de l’unité statistiqueque l’on va étudier (exemples : situation géographique de l’entreprise, diamètre de la pièce…). On dira que cette variable prend des valeurs (ou modalités).

Types de variables statistiques

On peut définir quatre classes (ou types) dans lesquelles se répartissent les variables statistiques selon la nature de leurs valeurs. Les différents types de variables sont présentés ci-dessous:




Distributions statistiques. Effectifs, fréquences


Lorsque le recueil des données a été effectué, on dispose, pour chacun des individus de l’échantillon (ou de la population), de la valeur de la variable étudiée. Le premier traitement consiste alors à relever cette valeur pour chaque individu et ensuite à compter le nombre d’individus pour lesquels la variable prend une valeur donnée. On associe, à chaque valeur prise par le caractère statistique étudié, son effectif.

Notation : les variables seront notées par des lettres majuscules $ X, Y, Z, \ldots $ ; on note leurs modalités (valeurs) par des lettres minuscules $x_i , y_i , z_{\ell}, \ldots $ et les effectifs associés par $ n_i , n_j, n_{\ell}, \ldots $.


Exemple : $X =$ sexe, $x_1 =$ féminin, $x_2 =$ masculin, $n_1 =$ nombre de femmes, $n_2 =$ nombre d’hommes.


Ce traitement n’est bien sûr directement possible que pour les variables qualitatives ou discrètes, qui n’ont qu’un nombre limité de valeurs possibles, discernables entre elles. Pour les variables continues, on commence par ranger les observations en classes, celles-ci étant des intervalles de la forme $[a_{i – 1}, ai [$. Ensuite, pour chaque classe, on compte le nombre d’individus dont le caractère appartient à la classe : ce nombre est l’effectif de la classe. On note $k$ le nombre de modalités.


Définition : on appellera distribution statistique des effectifs de la variable $X$ :
- l’ensemble des données $(x_i , n_i), i=1, \ldots , k$ , si $X$ est une variable qualitative ou discrète,
- l’ensemble des données $([a_{i-1},a_i[, n_i), i=1, \ldots , k$ , si $X$ est une variable continue.
Les résultats sont généralement présentés dans un tableau ci-dessous :


Présentation des variables statistiques
$X$ est catégorielle, ordinale
ou discrète
$X$ est continue
Classes
Effectifs
Classes
Effectifs
$x_1$
$n_1$
$[a_0;a_1[$
$n_1$
$x_2$
$n_2$
$[a_1;a_2[$
$n_2$
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
$x_k$
$n_k$
$[a_{k-1};a_k[$
$n_k$
Total
$N=n_1+n_2+\ldots+n_k$
Total
$N=n_1+n_2+\ldots+n_k$

Remarque : dans le cas des données individuelles (c’est-à-dire lorsque l’on ne regroupe pas les réponses), on a : $n_1 = n_2 = \ldots = n_k =1$ .
À la distribution d’effectifs définie ci-dessus, on préfère souvent la distribution de fréquences associée.

Définition : la fréquence (ou proportion) associée à la valeur $x_i$ du caractère (resp. à la classe $[a_{i-1};a_i[$ ) est la valeur $f_i$ définie par : $$f_i = \frac{n_i}{N}$$.

La fréquence $f_i$ représente donc la part de l’échantillon pour laquelle la valeur de la variable est $x_i$ (ou appartient à $[a_{i-1};a_i[$ ). On peut par exemple l’exprimer sous forme de pourcentages (le pourcentage sera alors $100 \times f_i$ ).
Remarque : cette quantité est indépendante de la taille de l’échantillon, ce qui permet de comparer les résultats obtenus sur plusieurs échantillons.
Les fréquences vérifient les propriétés suivantes : $$0 \le f_i \le 1 \ \ \ i=1, \ldots, k$$
$$ f_1 + f_2 + \ldots + f_k =1$$.
Exemple 1 : dans un échantillon de mille individus, on a fait le relevé de la catégorie socioprofessionnelle (CSP) (tableau ci-dessous).
Pour obtenir le tableau de fréquences, on divise, pour chaque modalité $i$, l’effectif $n_i$ par l’effectif total, c’est-à-dire ici $1 \ 000$. Par exemple, pour les ouvriers, on a une fréquence de $320/1 000 = 0,32$, ce qui correspond à $32 \%$.


Exemple : Effectifs et fréquences
$i$
CSP $x_i$
Effectif $n_i$
Fréquence $f_i$
1
Profession libérale,
cadre supérieur
60
0,06
2
Patron
90
0,09
3
Employé,
cadre moyen
170
0,17
4
Ouvrier
320
0,32
5
Retraité, inactif
230
0,23
6
Agriculteur
130
0,13


Total : N : 1000
1

Représentations graphiques des distributions statistiques

Très souvent, on préfère des représentations graphiques à des tableaux. Les graphes apparaissent comme plus "parlants". Ces représentations sont adaptées au type de variable étudiée : nominale,
ordinale, discrète ou continue.

Variables nominales

On dispose pour ces variables de diagrammes en bâtons, ainsi que de diagrammes circulaires (ou en secteurs , ou en "camembert").

Remarque : les diagrammes donnés ici sont faits à partir du tableau de l’exemple précédent.

  • Diagramme en bâtons
À chaque modalité $x_i$, on associe un "bâton" de longueur $h_i$ proportionnelle à la fréquence $f_i$ (ou, si l’on veut, à l’effectif $n_i$ ). On a donc $h_i = Cte \times f_i$.
Pour une variable nominale, seules les hauteurs sont significatives ; l’ordre et l’écart des ne sont pas significatifs.

  • Diagramme circulaire
L’angle de chaque secteur $\alpha_i$ est proportionnel à la fréquence $f_i$. En degrés, on a $\alpha_i = 360 \times f_i$.
C’est la représentation la plus utilisée pour les variables nominales. De surcroît, elle est plus fidèle que la précédente.

Variables ordinales et variables discrètes
  • Variables ordinales
On utilise les mêmes représentations que pour les variables nominales. Toutefois, il convient de noter que, pour le diagramme en bâtons, l’ordre des modalités à un sens concret, car il doit correspondre à l’ordre existant entre les valeurs.
  • Variables discrètes
Pour ce type de variables, on préfère le diagramme en bâtons car, dans ce cas, l’ordre et l’écart entre les bâtons sont significatifs.


Variables continues : histogramme, polygone des fréquences, diagramme "branche et feuille"

On considère une variable statistique continue dont les valeurs ont été rangées en classes $[a_{i-1}, a_i[$. L’amplitude de la classe $[a_{i-1}, a_i[$ est $A_i = a_i - a_{i-1}$.
Pour représenter graphiquement la distribution statistique d’une telle variable, on a recours à un histogramme. Le principe est le suivant : à chaque classe, on fait correspondre un rectangle de base l’intervalle $[a_{i-1}, a_i[$ (pour la classe $i$ ) et de hauteur $h_i$, de sorte que la surface du rectangle soit proportionnelle à l’effectif.

Ainsi, on calcule la hauteur $h_i$ du rectangle au moyen de la formule suivante : $$h_i = \frac{n_i}{a_i - a_{i-1}}$$

D’un point de vue pratique, on constituera un tableau du type du tableau ci-dessous:

Variables continues : amplitudes et fréquences
$i$
Classes
Effectifs $n_i$
Fréquences $f_i$
Amplitudes $A_i$
Hauteurs $h_i$
1
$[a_0 , a_1[$
$n_1$
$f_1$
$a_1 - a_0$
$\frac{n_1}{a_1- a_0}$
2
$[a_1 , a_2[$
$n_2$
$f_2$
$a_2 - a_1$
$\frac{n_2}{a_2- a_1}$
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
k
$[a_{k-1} , a_k[$
$n_k$
$f_k$
$a_k - a_{k-1}$
$\frac{n_k}{a_k- a_{k-1}}$

On obtient ainsi le graphique de la figure ci-dessous:
- en abscisse, on porte l’ensemble des valeurs prises par la variable, découpé en classes ;
- en ordonnée, on porte les hauteurs : $$h_i = \frac{n_i}{a_i - a_{i-1}}$$
- on trace enfin des rectangles.

Remarque : si les amplitudes sont toutes égales, on porte les effectifs en ordonnée.

Exemple : dans une entreprise comptant 150 ouvriers, on a relevé l’âge de ceux-ci. Les résultats de l’enquête sont donnés dans le tableau ci-dessous.



À partir de l’histogramme d’une variable statistique continue, on peut tracer le polygone des fréquences
associé (figure ci-dessous) en procédant de la manière suivante :
- on joint par des morceaux de droites les milieux des segments horizontaux supérieurs des rectangles de l’histogramme ;
- on ajoute à droite et à gauche de l’histogramme des classes fictives, toutes deux de même amplitude et d’effectif nul, ce qui donne alors lieu à deux nouveaux segments.

Remarque : on ne doit pas "lisser" la courbe.


En dernier lieu, lorsque l’on étudie un échantillon de faible taille ( $N < 100$) et que l’on dispose des données individuelles, on peut dresser, pour la variable étudiée, un diagramme dit branche et feuille (en anglais stem and leaf), qui a l’avantage de conserver l’information de la répartition à l’intérieur des classes.

Principe : dans tout nombre, on peut distinguer deux parties : un chiffre de « plus haut poids » (branche) et un chiffre de "plus bas poids" (feuille). Dans l’exemple ci-dessous, les branches correspondent aux dizaines et les feuilles aux unités.

Exemple : on a 61 données portant sur le temps d’exécution d’une tâche (en minutes): 20, 21, 25, 25, 26, 26,26, 27, 27, 27, 28, 29, 30, 30, 30, 31, 31, 32, 32, 32, 32, 33, 33, 33, 33, 33, 34, 34, 35, 35, 36, 37, 37, 38, 38, 39, 40, 40, 40, 41, 41, 42, 42, 42, 43, 44, 45, 46, 48, 48, 49, 50, 50, 53, 53, 53, 53, 53, 53, 54, 54.
On le résume dans le diagramme "branche et feuille" suivant :







Aucun commentaire:

Enregistrer un commentaire