L'analyse de données
Mémoires Gratuits : L'analyse de données. Recherche parmi 301 000+ dissertationsPar Yass • 16 Octobre 2012 • 4 354 Mots (18 Pages) • 1 320 Vues
finance Cours
d'analyse de données
par: B. Dousset
1. INTRODUCTION A L'ANALYSE DE DONNEES
1.1. OBJECTIFS DE L'ANALYSE DE DONNEES
L'analyse de données est apparue dans les années trente grâce à H. Hotteling, qui initialisait le principe de l'analyse en composantes principales et de l'analyse canonique en s'inspirant des travaux de C. Spearman et de K. Pearson datant du début du siècle.
Ces méthodes furent ensuite complétées et perfectionnées sans grand succès, car elles nécessitaient de très importants calculs. Le développement de l'informatique, dans les années soixante, a remis cette approche de la statistique au goût du jour et la multiplication de micro-ordinateurs scientifiques a permis sa vulgarisation.
La statistique classique ne s'intéresse qu'à un nombre limité de caractères mesurés sur un ensemble restreint d'individus. Elle s'appuie sur des estimations ou des tests très restrictifs. Les hypothèses émises sont souvent très approximatives et les lois de distribution très théoriques. Dans la réalité, les individus sont le plus souvent décrits par de très nombreux paramètres, qui n'obéissent pas à des lois connues à priori. La différence essentielle de l'analyse de données, par rapport à la statistique classique, est qu'elle réalise une étude globale du couple individus caractères en s'appuyant sur des représentations graphiques beaucoup plus lisibles que de volumineux tableaux de mesures. Les ressemblances ou les dissemblances entre individus ou entre caractères, leur corrélations positives ou négatives sont à la base de l'analyse, qui peut s'effectuer suivant plusieurs points de vue. Des méthodes de classification automatique viennent compléter les analyses graphiques, les classes obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster.
Cette approche multidimensionnelle, depuis qu'elle est maîtrisée grâce à l'apport de l'informatique, a connu un très grand nombre d'applications pratiques pour l'observation et la compréhension des phénomènes complexes notamment en médecine, physique, sciences naturelles, sciences humaines, etc...
1.2. NATURE DES DONNEES ANALYSABLES
1.2.1. Les matrices de données
En analyse de données on distingue deux types d'informations:
* les individus
* les variables
Les individus peuvent représenter des entités comme des personnes, des entreprises, des pays, des journaux, etc. Sur ces individus nous allons réaliser des observations ou des mesures. Les individus peuvent représenter l'ensemble d'une population ou simplement une partie qui n'est pas nécessairement sensée être, comme en statistique inférentielle, un échantillon représentatif.
Les variables sont des caractères relatifs à ces individus. Elles peuvent être de deux types:
* quantitatives
* qualitatives
* Une variable sera quantitative si elle prend des valeurs sur une échelle numérique comme par exemple:
* l'age
* la taille
* le poids
* le salaire
* le nombre d'enfants
* le chiffre d'affaires
* le nombre d'employés, etc.
Les opération algébriques habituelles (addition, multiplication, calcul de moyenne) peuvent être utilisées pour combiner ou normaliser leurs valeurs numériques.
* Une variable sera qualitative si elle peut prendre des modalités non numériques comme:
* le sexe
* la profession
* les diplômes
* le niveau hiérarchique
* la situation de famille, etc.
Les valeurs possibles prises par une variable de type quantitatif sont appelées des modalités.
Si ces variables peuvent être ordonnées même grossièrement, on parlera de variables qualitatives ordinales:
* niveau hiérarchique, diplômes,
* niveau de satisfaction, etc.
Sinon ce sont des variables qualitatives nominales:
* couleur
* entreprise
* région d'origine,
* pays, etc.
1.2.2. Les matrices individus x variables
Les données sont consignée dans une matrice rectangulaire qui croise les individus et leurs variables ou les modalités de leurs variables.
Les lignes représentent les individus Ii i=1,m.
Les colonnes représentent les variables Vj j=1,n ou leurs modalités Mk.
Voici un exemple de matrice de croisement:
V1 V2 Vj Vn
Age
Poids
Taille Fréquence
cardiaque
I1
x11
x12
x1j
x1n
I2
x21
x22
x2j
x2n
Ii
xi1
xi2
xij
...