Origini e scopo dell’Analisi di Correlazione Canonica
L’Analisi di Correlazione Canonica (CCorA, a volte CCA, ma noi preferiamo usare CCA per Analisi di Corrispondenza Canonica) è uno dei molti metodi statistici che permettono di studiare la relazione tra due insiemi di variabili.Studia la correlazione tra due insiemi di variabili ed estrae da queste tabelle un insieme di variabili canoniche che sono il più possibile correlate con entrambe le tabelle e ortogonali tra loro.
Scoperto da Hotelling (1936) questo metodo è molto usato in ecologia ma è stato soppiantato da RDA (Redundancy Analysis) e da CCA (Canonical Correspondence Analysis).
Principi di Canonical Correlation Analysis
Questo metodo è simmetrico, al contrario di RDA, e non è orientato alla predizione. Siano Y1 e Y2 due tabelle, con rispettivamente p e q variabili. L’analisi di correlazione canonica mira a ottenere due vettori a(i) e b(i) tali che
ρ(i) = cor = cov(Y1a(i) Y2b(i)) /
sia massimizzato. I vincoli devono essere introdotti in modo che la soluzione per a(i) e b(i) sia unica. Poiché alla fine stiamo cercando di massimizzare la covarianza tra Y1a(i) e Y2b(i) e di minimizzare la loro rispettiva varianza, potremmo ottenere componenti che sono ben correlate tra loro, ma che non spiegano bene Y1 e Y2. Una volta ottenuta la soluzione per i=1, cerchiamo la soluzione per i=2 dove a(2) e b(2) devono essere rispettivamente ortogonali ad a(1) e b(2), e così via. Il numero di vettori che possono essere estratti è al massimo uguale a min(p, q).
Nota: L’analisi inter-batterie di Tucker (1958) è un’alternativa in cui si vuole massimizzare la covarianza tra le componenti Y1a(i) e Y2b(i).
Risultati dell’analisi di correlazione canonica in XLSTAT
- Matrice di similarità: . Viene visualizzata la matrice che corrisponde al “tipo di analisi” scelto nella finestra di dialogo.
- I autovalori e percentuali di inerzia: In questa tabella vengono visualizzati gli autovalori, l’inerzia corrispondente e le percentuali corrispondenti. Nota: in alcuni software, gli autovalori che vengono visualizzati sono uguali a L / (1-L), dove L è l’autovalore dato da XLSTAT.
- Test Lambda di Wilks: Questo test permette di determinare se le due tabelle Y1 e Y2 sono significativamente legate a ciascuna variabile canonica.
- Correlazioni canoniche: Le correlazioni canoniche, delimitate da 0 e 1, sono più alte quando la correlazione tra Y1 e Y2 è alta. Tuttavia, non dicono in che misura le variabili canoniche sono correlate a Y1 e Y2. Le correlazioni canoniche al quadrato sono uguali agli autovalori e, di fatto, corrispondono alla percentuale di variabilità portata dalla variabile canonica.
I risultati elencati di seguito sono calcolati separatamente per ciascuno dei due gruppi di variabili di input.
- Coefficienti di ridondanza: Questi coefficienti permettono di misurare per ogni gruppo di variabili di input quale proporzione della variabilità delle variabili di input è predetta dalle variabili canoniche.
- Coefficienti canonici: Questi coefficienti (chiamati anche pesi canonici, o coefficienti della funzione canonica) indicano come sono state costruite le variabili canoniche, poiché corrispondono ai coefficienti della combinazione lineare che genera le variabili canoniche dalle variabili di input. Sono standardizzati se le variabili di input sono state standardizzate. In questo caso, i pesi relativi delle variabili di input possono essere confrontati.
- Correlazioni tra variabili di input e variabili canoniche: Le correlazioni tra le variabili di input e le variabili canoniche (chiamate anche coefficienti di correlazione della struttura, o caricamenti dei fattori canonici) permettono di capire come le variabili canoniche sono legate alle variabili di input.
- Coefficienti di adeguatezza delle variabili canoniche: I coefficienti di adeguatezza delle variabili canoniche corrispondono, per una data variabile canonica, alla somma delle correlazioni al quadrato tra le variabili di input e le variabili canoniche, divisa per il numero di variabili di input. Essi danno la percentuale di variabilità presa in considerazione dalla variabile canonica di interesse.
- Coseni quadrati: I coseni quadrati delle variabili di input nello spazio delle variabili canoniche permettono di sapere se una variabile di input è ben rappresentata nello spazio delle variabili canoniche. I coseni al quadrato per una data variabile d’ingresso sommano a 1. La somma su un numero ridotto di assi canonici dà la comunanza.
- Punteggi: I punteggi corrispondono alle coordinate delle osservazioni nello spazio delle variabili canoniche.