L’analyse en composantes principales

L’Analyse en Composantes principales

I- Introduction

ACP est la plus simple et la plus connue des techniques d’Analyse de Données multi variées, qui sert à mettre en évidence des similarités ou des oppositions entre variables et à repérer les variables les plus corrélées entre elles, ou encore à transformer des variables liées entre elles (dites « corrélées » en statistique) en nouvellesvariables indépendantes les unes des autres Ces nouvelles variables sont nommées « composantes principales », ou axes.

L’ACP propose, a partir d’un tableau rectangulaire de données comportant les valeurs de p variables quantitatives pour n unités (appelees aussi individus), des représentations géométriques de ces unités et de ces variables .Enfin, comme pour toute méthode descriptive, réaliser uneACP n’est pas une fin en soi. L’ACP servira à mieux conna?tre les données sur lesquelles on travaille, a détecter éventuellement des valeurs suspectes, et aidera à formuler des hypothèses qu’il faudra étudier a l’aide de modèles et d’études statistiques différentielles.
l’analyse en composantes principales nous mettra en présence d’une équation très apparentée à l’équation de régressionclassique ayant la forme suivante :
C1 = â1 var1 + â2 var2 + â3 var3… + âk vark

II- Historique de l’ACP :

L’Analyse en Composantes principales (ACP) fait partie du groupe des méthodes descriptives multidimensionnelles appelées méthodes factorielles Ces méthodes qui sont apparues au début des années 30 ont été surtout développées en France dans les années60.L’ACP prend sa source dans un article de Karl Pearson publié en 19011. Le père du Test du ?² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable à partir des autres (comme en régression), mais pour décrire et résumer l’information contenue dans ces variables.
Les champsd’application sont aujourd’hui multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d’images. L’ACP est majoritairement utilisée pour:

* décrire et visualiser des données ;
* les décorréler ; la nouvelle base est constituée d’axes qui ne sont pas corrélés entre eux ;
* les débruiter, en considérant que les axes que l’on décided’oublier sont des axes bruités.

III- Objectif et principe de l’Analyse en Composantes Principales (ACP)

En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données provoque une perte d’information, l’ACP peut donc faire face à ce problème et procède de façon à ce que cette perte d’information soit la plus faible possible, selon un sens précis et naturel que l’ondonnera au mot « information ».
Etant donné un ensemble d’observations décrites par des variable exclusivement numériques {x1, x2 , …, xp}, l’ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales, et porteront le nom de Composantes Principales (CP), ces derniersdéfinissent
des plans factoriels qui servent de base à une représentation graphique plane des variables
initiales. L’interprétation des résultats se restreint généralement aux deux premiers plans
factoriels, sous réserve que ceux-ci expliquent la majeure partie de la variance du nuage des
variables initiales
L’Analyse en Composantes Principales est alors une bonne méthode pour étudier les donnéesmultidimensionnelles, lorsque toutes les variables observées sont de type numérique, de préférence dans les mêmes unités, et que l’on veut voir si il y a des liens entre ces variables.
VI- Propriétés des Composantes Principales
* Propriétés des Composantes Principales
Nombre
Bien que l’objectif soit en général de n’utiliser qu’un petit nombre de Composantes Principales, l’ACP en construit…