Statistique descriptive I Jean Pinquet (G603)
Chronologie : Statistique descriptive I Jean Pinquet (G603). Recherche parmi 300 000+ dissertationsPar abd213 • 20 Février 2018 • Chronologie • 2 002 Mots (9 Pages) • 1 000 Vues
15/06/15
Statistique descriptive I
Jean Pinquet (G603)
Page « googlesites »
Plan du cours
- Distributions empiriques (description d'une seule variable, avec l'accent sur les variables économiques).
- Moyennes d'ordre r, croissance,indices.
- Distributions bivariées, régression linéaire.
- Série chronologique. Estimation d'une tendance linéaire et d'effets saisonniers.
Chapitre 1 : Distributions empiriques
I- Individus et variables
Des variables sont observées sur un ensemble d'individus (échantillon).
Les individus peuvent être des humains, des unités géographiques (villes,pays), économiques.
Mais aussi des dates (variable temporelle)
Variable (quantitative/qualitative) :
Une variable quantitative (âge,revenu) est à valeurs numériques.
Réciproque fausse (numéro de département par exemple il manque une unité de mesure)
La variable « département » est qualitative. Ses valeurs possibles sont des modalités, que l'on peut coder numériquement.
Idem pour le genre (1 pour masculin,2 pour féminin).
Quantitative = Discrète/Continue
Qualitative = Ordinale(ordonnable)/Nominale(pas ordonnable)
Variables qualitatives nominale et ordinales :
Une variable qualitative est nominale s'il n'y a pas d'ordre sur les modalités (valeurs qu'elle prend). Sinon, elle est ordinale.
Exemple : Quel est le type de la variable genre ? Elle est nominale, sans ordre.
Une variable quantitative ordinale : variable quantitative + seuil(s)
Exemple : âge +2 seuils (20;40 ans) = 3 modalités ordonnées (-20, 20-40, +40)
On « saucissonne » la variable quantitative âge, avec une perte d'information.
Variables quantitatives discrètes et continues :
Une variable quantitative discrète prend ses valeurs dans un ensemble « à trous » (par exemple : valeurs entières pour le nombre de jours d'abscence).
Une variable quantitative continue peut prendre toutes les valeurs dans un intervalle (exemple : revenu d'un salarié, patrimoine d'un ménage).
Les variables quantitatives continues se représentent différement des autres (courbe).
II- Représentation de la distribution des variables sur un échantillon
Variables quantitatives :
Diagramme en bâtons (on dit aussi en « tuyaux d'orgue ») des fréquences ou des effectifs de chacune des modalités
Variables qualitatives à k modalités, indicées par i = 1,....,k .
Soit ni le nombre d'individu ayant la modalité i. La taille de l'échantillon(nombre total d'individus) est n=n1+....+nk = (1*)
La fréquence de la modalité i est fi=ni/n. On a f1+ …. +fk = (n1 + … + nk) / n = n/n = 1 = 100%
Les hauteurs des bâtons sont proportionnels aux fréquences (ou aux effectifs)
Exemple : Variable genre, observée sur n=120 individus. On a n1=80 , n2=40 (1 = H, 2 = F).
Donc f1 = n1/n = 80/120 = 2/3 ; f2= 1/3
On a : f2/f1 = n2/n1 = ½ = 0,5
Autre mode de représentation : diagramme circulaire (« camembert »).
Les angles sont proportionnels aux fréquences.
Les variables quantitatives discrètes sont représentées comme les variables qualitatives.[pic 1]
Exemples :
1. Les 120 individus sont salariés qui ont entre 0 et 9 jours d'abscence sur 100 jours ouvrés.
Avec les données (2*) on fait grâce aux tableurs des graphiques soit en camembert sois en bâtons.
La classe modale est celle qui à l'effectif le plus élevé.
3 jours d'abscence (effectif:22) est la valeur modale.
Il s'agit d'un mode global. S'il y a un ordre sur les modalités, on peut aussi considérer des modes locaux (maxima locaux dans le diagramme en bâtons).
Dans le graphique seul le maximum global est un maximum local. La distribution du nombre de jours d'absence est dite unimodale
2. Etudions les distributions croisée de deux variables, ici le genre et le nombre de jour d'absence sur les 120 salariés.
(3*) Les distributions pour les hommes et les femmes sont bimodales : 3 jours d'absence (classe n4) est la classe modale pour les hommes, mais 6 jours d'absence est un mode local.
Pour les femmes : chercher le mode global et le mode local (exercice).
Représentation des variables quantitatives continues : fonction de répartition, quantiles, histogrammes.
Considérons la variable revenu, observée sur une grande population (e.g. Les salariés du public, ou du privé en france)
Peut-on représenter l'information de manière exhaustive, sans avoir le fichier des données individuelles ?
Oui, de manière graphique. C'est l'idée de la fonction de répartition empirique.
Par exemple les revenus annuels nets pour les salariés du public (fonctionnaires d'états) en 2010.
Décile | Femmes | Hommes | Ensemble |
1er décile | 19086 | 20517 | 19564 |
Médiane | 25840 | 29170 | 27043 |
9eme décile | 38244 | 46181 | 41473 |
Interprétation du premier décile :
10% des fonctionnaires français ont gagné moins de 19564€
Soit x une variable quantitative, définie sur un échantillon de n idividus. Les données sont égales à x1,....,xi,.....,xn.
La fonction de répartition empirique (dite des fréquences cumulées) est une fonction F : R → (0;1) définie pas
...