LaDissertation.com - Dissertations, fiches de lectures, exemples du BAC
Recherche

Modélisation Statistique

Commentaires Composés : Modélisation Statistique. Recherche parmi 301 000+ dissertations

Par   •  7 Mai 2015  •  2 243 Mots (9 Pages)  •  1 225 Vues

Page 1 sur 9

I-Modélisation statistique : Généralités

1-Notion de modélisation mathématique

Une grande partie des mathématiques appliquées consiste, d’une certaine façon, à faire de la modélisation, c’est-à-dire à définir un (ou plusieurs) modèle (s), de nature mathématique, permettant de rendre compte, d’une manière suffisamment générale, d’un phénomène donné, qu’il soit physique, biologique, économique ou autre.

De façon un peu schématique, on peut distinguer la modélisation déterministe (Au sein d’un modèle déterministe, on ne prend pas en compte de variations aléatoires) et la modélisation stochastique (qui prend en compte ces variations aléatoires en essayant de leur associer une loi de probabilité).

Les outils classiques de la modélisation déterministe sont les équations différentielles ordinaires (EDO) et les équations aux dérivées partielles (EDP), qui prennent en compte les variations d’un phénomène en fonction de facteurs tels que le temps, la température... Ces équations ont rarement des solutions explicites et leur résolution nécessite, le plus souvent, la mise en œuvre d’algorithmes numériques plus ou moins sophistiqués, permettant d’obtenir une solution, éventuellement approchée. C’est le champ d’application de ce que l’on appelle aujourd’hui le calcul scientifique.

La modélisation stochastique a pour but essentiel de préciser des lois de probabilité rendant compte des variations aléatoires de certains phénomènes, variations dues à des causes soit inconnues, soit impossible à mesurer (par exemple, parce qu’elles sont à venir). Au sein de la modélisation stochastique, la modélisation probabiliste a surtout pour but de donner un cadre formel permettant, d’une part de décrire les variations aléatoires dont il est question, d’autre part d’étudier les propriétés générales des phénomènes qui les régissent. Plus appliquée, la modélisation statistique consiste essentiellement à définir des outils appropriés pour modéliser des données observées, en tenant compte de leur nature aléatoire.

2 Principales méthodes de modélisation statistique

Les méthodes de modélisation statistique sont, en fait, très nombreuses. Je cite ci-dessous les principales, sachant que la croissance considérable des masses de données enregistrées dans différents secteurs (internet, biologie à haut débit, marketing...), le besoin d’exploiter ces données sur le plan statistique ainsi que les outils modernes de calcul ont donné naissance ces dernières années à de nombreuses méthodes, de plus en plus sophistiquées et, dans le même temps, de plus en plus “gourmandes” en temps de calcul. Ci-dessous quelques exemples de modèles statistiques.

Le modèle linéaire (gaussien) de base

À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe essentiellement la régression linéaire, l’analyse de variance et l’analyse de covariance. Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des erreurs, donc de la variable à expliquer.

Le modèle linéaire généralisé

Il généralise le précédent à deux niveaux : d’une part, la loi des erreurs, donc de la variable réponse, n’est plus nécessairement gaussienne, mais doit appartenir à l’une des lois de la famille exponentielle ; d’autre part, la liaison linéaire entre l’espérance de la variable réponse et les variables explicatives se fait à travers une fonction particulière appelée fonction lien. Ce modèle englobe différentes méthodes telles que la régression logistique, la régression Poisson, le modèle log-linéaire ou certains modèles de durée de vie.

Les modèles non linéaires

De façon très générale, il s’agit de modèles permettant d’expliquer la variable réponse (aléatoire) au moyen des variables explicatives (non aléatoires dans les modèles usuels), à travers une fonction quelconque, inconnue (on est donc en dehors du cadre du modèle linéaire généralisé). Cette classe de modèles est très vaste et relève, en général, de la statistique non paramétrique. Je cite, à titre d’exemple, la régression non paramétrique, les GAM (Generalized Additive Models) et les réseaux de neurones.

Les modèles mixtes

On désigne sous ce terme des modèles permettant d’expliquer la variable aléatoire réponse au moyen de diverses variables explicatives, certaines étant aléatoires (on parle en général de facteurs à effets aléatoires) et intervenant dans la modélisation de la variance du modèle, d’autres ne l’étant pas (on parle de facteurs à effets fixes) et intervenant dans la modélisation de la moyenne. On trouve ainsi des modèles linéaires gaussiens mixtes, des modèles linéaires généralisés mixtes et des modèles non linéaires mixtes.

Les modèles pour données répétées

On appelle données répétées, ou données longitudinales, des données observées au cours du temps sur les mêmes individus (en général, il s’agit de personnes ou d’animaux suivis dans le cadre d’une expérimentation médicale ou biologique). De façon claire, il est nécessaire de prendre en compte dans ces modèles une certaine dépendance entre les observations faites sur un même individu à différents instants. Les modèles linéaires ou linéaires généralisés, qu’ils soient standards ou mixtes, sont utilisés dans ce contexte.

Les modèles pour séries chronologiques

Les séries chronologiques sont les observations, au cours du temps, d’une certaine grandeur représentant un phénomène économique, social ou autre. Si le modèle de données répétées et celui des séries chronologiques ont en commun de rendre compte de l’évolution au cours du temps d’un phénomène donné, on notera que ces deux types de données ne sont pas réellement de même nature (dans une série chronologique, ce sont rarement des personnes ou des animaux que l’on observe). Pour les séries chronologiques, on utilise des modèles spécifiques : modèles AR (Auto-Regressive, ou auto-régressifs), MA (Moving Average, ou moyennes mobiles), ARMA, ARIMA (I pour Integrated).

L’analyse discriminante et la classification

S’il est plus courant d’utiliser ces méthodes dans un contexte

...

Télécharger au format  txt (15.8 Kb)   pdf (149.8 Kb)   docx (13.6 Kb)  
Voir 8 pages de plus »
Uniquement disponible sur LaDissertation.com