LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

L'analyse de données

Mémoires Gratuits : L'analyse de données. Recherche parmi 300 000+ dissertations

Par   •  16 Octobre 2012  •  4 354 Mots (18 Pages)  •  1 305 Vues

Page 1 sur 18

finance Cours

d'analyse de données

par: B. Dousset

1. INTRODUCTION A L'ANALYSE DE DONNEES

1.1. OBJECTIFS DE L'ANALYSE DE DONNEES

L'analyse de données est apparue dans les années trente grâce à H. Hotteling, qui initialisait le principe de l'analyse en composantes principales et de l'analyse canonique en s'inspirant des travaux de C. Spearman et de K. Pearson datant du début du siècle.

Ces méthodes furent ensuite complétées et perfectionnées sans grand succès, car elles nécessitaient de très importants calculs. Le développement de l'informatique, dans les années soixante, a remis cette approche de la statistique au goût du jour et la multiplication de micro-ordinateurs scientifiques a permis sa vulgarisation.

La statistique classique ne s'intéresse qu'à un nombre limité de caractères mesurés sur un ensemble restreint d'individus. Elle s'appuie sur des estimations ou des tests très restrictifs. Les hypothèses émises sont souvent très approximatives et les lois de distribution très théoriques. Dans la réalité, les individus sont le plus souvent décrits par de très nombreux paramètres, qui n'obéissent pas à des lois connues à priori. La différence essentielle de l'analyse de données, par rapport à la statistique classique, est qu'elle réalise une étude globale du couple individus caractères en s'appuyant sur des représentations graphiques beaucoup plus lisibles que de volumineux tableaux de mesures. Les ressemblances ou les dissemblances entre individus ou entre caractères, leur corrélations positives ou négatives sont à la base de l'analyse, qui peut s'effectuer suivant plusieurs points de vue. Des méthodes de classification automatique viennent compléter les analyses graphiques, les classes obtenues pouvant à leur tour être visualisées sous forme d'arborescence ou de cluster.

Cette approche multidimensionnelle, depuis qu'elle est maîtrisée grâce à l'apport de l'informatique, a connu un très grand nombre d'applications pratiques pour l'observation et la compréhension des phénomènes complexes notamment en médecine, physique, sciences naturelles, sciences humaines, etc...

1.2. NATURE DES DONNEES ANALYSABLES

1.2.1. Les matrices de données

En analyse de données on distingue deux types d'informations:

* les individus

* les variables

Les individus peuvent représenter des entités comme des personnes, des entreprises, des pays, des journaux, etc. Sur ces individus nous allons réaliser des observations ou des mesures. Les individus peuvent représenter l'ensemble d'une population ou simplement une partie qui n'est pas nécessairement sensée être, comme en statistique inférentielle, un échantillon représentatif.

Les variables sont des caractères relatifs à ces individus. Elles peuvent être de deux types:

* quantitatives

* qualitatives

* Une variable sera quantitative si elle prend des valeurs sur une échelle numérique comme par exemple:

* l'age

* la taille

* le poids

* le salaire

* le nombre d'enfants

* le chiffre d'affaires

* le nombre d'employés, etc.

Les opération algébriques habituelles (addition, multiplication, calcul de moyenne) peuvent être utilisées pour combiner ou normaliser leurs valeurs numériques.

* Une variable sera qualitative si elle peut prendre des modalités non numériques comme:

* le sexe

* la profession

* les diplômes

* le niveau hiérarchique

* la situation de famille, etc.

Les valeurs possibles prises par une variable de type quantitatif sont appelées des modalités.

Si ces variables peuvent être ordonnées même grossièrement, on parlera de variables qualitatives ordinales:

* niveau hiérarchique, diplômes,

* niveau de satisfaction, etc.

Sinon ce sont des variables qualitatives nominales:

* couleur

* entreprise

* région d'origine,

* pays, etc.

1.2.2. Les matrices individus x variables

Les données sont consignée dans une matrice rectangulaire qui croise les individus et leurs variables ou les modalités de leurs variables.

Les lignes représentent les individus Ii i=1,m.

Les colonnes représentent les variables Vj j=1,n ou leurs modalités Mk.

Voici un exemple de matrice de croisement:

V1 V2 Vj Vn

Age

Poids

Taille Fréquence

cardiaque

I1

x11

x12

x1j

x1n

I2

x21

x22

x2j

x2n

Ii

xi1

xi2

xij

...

Télécharger au format  txt (30.9 Kb)   pdf (281.6 Kb)   docx (24.2 Kb)  
Voir 17 pages de plus »
Uniquement disponible sur LaDissertation.com