Analyse des corrélations canoniques (CCorA)

Origines et but de l’analyse des corrélations canoniques

L’analyse des corrélations canoniques (CCorA, parfois ACC, mais nous préférons utiliser ACC pour analyse canonique des correspondances) est une des nombreuses méthodes statistiques permettant d’étudier la relation entre deux ensembles de variables.Elle étudie la corrélation entre deux ensembles de variables et extrait de ces tableaux un ensemble de variables canoniques qui sont autant que possible corrélées aux deux tableaux et orthogonales entre elles.

Découverte par Hotelling (1936) cette méthode est très utilisée en écologie mais elle a été supplantée par la RDA (Redundancy Analysis) et par la CCA (Canonical Correspondence Analysis).

Principes de l’analyse des corrélations canoniques

Cette méthode est symétrique, contrairement à la RDA, et n’est pas orientée vers la prédiction. Soit Y1 et Y2 deux tableaux, avec respectivement p et q variables. L’analyse de corrélation canonique vise à obtenir deux vecteurs a(i) et b(i) tels que

ρ(i) = cor = cov(Y1a(i) Y2b(i)). /

est maximisée. Il faut introduire des contraintes pour que la solution pour a(i) et b(i) soit unique. Comme on cherche finalement à maximiser la covariance entre Y1a(i) et Y2b(i) et à minimiser leur variance respective, on pourrait obtenir des composantes bien corrélées entre elles, mais qui n’expliquent pas bien Y1 et Y2. Une fois la solution obtenue pour i=1, on cherche la solution pour i=2 où a(2) et b(2) doivent être respectivement orthogonaux à a(1) et b(2), et ainsi de suite. Le nombre de vecteurs que l’on peut extraire est au maximum égal à min(p, q).

Note : L’analyse inter-batteries de Tucker (1958) est une alternative où l’on veut maximiser la covariance entre les composantes Y1a(i) et Y2b(i).

Résultats pour l’analyse de corrélation canonique dans XLSTAT

  • Matrice de similarité : . La matrice qui correspond au « type d’analyse » choisi dans la boîte de dialogue est affichée.
  • Valeurs propres et pourcentages d’inertie : Dans ce tableau sont affichés les valeurs propres, l’inertie correspondante, et les pourcentages correspondants. Note : dans certains logiciels, les valeurs propres qui sont affichées sont égales à L / (1-L), où L est la valeur propre donnée par XLSTAT.
  • Test Lambda de Wilks : Ce test permet de déterminer si les deux tableaux Y1 et Y2 sont significativement liés à chaque variable canonique.
  • Corrélations canoniques : Les corrélations canoniques, bornées par 0 et 1, sont plus élevées lorsque la corrélation entre Y1 et Y2 est forte. Cependant, elles ne permettent pas de savoir dans quelle mesure les variables canoniques sont liées à Y1 et Y2. Les corrélations canoniques au carré sont égales aux valeurs propres et, en fait, correspondent au pourcentage de variabilité porté par la variable canonique.

Les résultats énumérés ci-dessous sont calculés séparément pour chacun des deux groupes de variables d’entrée.

  • Coefficients de redondance : Ces coefficients permettent de mesurer pour chaque ensemble de variables d’entrée quelle proportion de la variabilité des variables d’entrée est prédite par les variables canoniques.
  • Coefficients canoniques : Ces coefficients (également appelés poids canoniques, ou coefficients de fonction canonique) indiquent comment les variables canoniques ont été construites, car ils correspondent aux coefficients de la combinaison linéaire qui génère les variables canoniques à partir des variables d’entrée. Ils sont normalisés si les variables d’entrée ont été normalisées. Dans ce cas, les poids relatifs des variables d’entrée peuvent être comparés.
  • Corrélations entre variables d’entrée et variables canoniques : Les corrélations entre les variables d’entrée et les variables canoniques (également appelées coefficients de corrélation de structure, ou charges factorielles canoniques) permettent de comprendre comment les variables canoniques sont liées aux variables d’entrée.
  • Coefficients d’adéquation des variables canoniques : Les coefficients d’adéquation des variables canoniques correspondent, pour une variable canonique donnée, à la somme des corrélations au carré entre les variables d’entrée et les variables canoniques, divisée par le nombre de variables d’entrée. Ils donnent le pourcentage de variabilité pris en compte par la variable canonique d’intérêt.
  • Cosinus carrés : Les cosinus carrés des variables d’entrée dans l’espace des variables canoniques permettent de savoir si une variable d’entrée est bien représentée dans l’espace des variables canoniques. La somme des cosinus carrés pour une variable d’entrée donnée est égale à 1. La somme sur un nombre réduit d’axes canoniques donne la communalité.
  • Scores : Les scores correspondent aux coordonnées des observations dans l’espace des variables canoniques.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.