Origins and aim of Canonical Correlation Analysis
Canonical Correlation Analysis (CCorA, soms CCA, maar wij gebruiken liever CCA voor Canonical Correspondence Analysis) is een van de vele statistische methoden waarmee het verband tussen twee reeksen variabelen kan worden bestudeerd.Zij bestudeert de correlatie tussen twee reeksen variabelen en extraheert uit deze tabellen een reeks canonieke variabelen die zoveel mogelijk gecorreleerd zijn met beide tabellen en orthogonaal ten opzichte van elkaar staan.
Deze door Hotelling (1936) ontdekte methode wordt veel in de ecologie gebruikt, maar is verdrongen door RDA (Redundancy Analysis) en door CCA (Canonical Correspondence Analysis).
Principes van Canonical Correlation Analysis
Deze methode is symmetrisch, in tegenstelling tot RDA, en is niet gericht op voorspelling. Stel Y1 en Y2 zijn twee tabellen, met respectievelijk p en q variabelen. Canonieke correlatieanalyse is gericht op het verkrijgen van twee vectoren a(i) en b(i) zodanig dat
ρ(i) = cor = cov(Y1a(i) Y2b(i)) /
gemaximaliseerd is. Er moeten beperkingen worden ingevoerd zodat de oplossing voor a(i) en b(i) uniek is. Aangezien wij uiteindelijk trachten de covariantie tussen Y1a(i) en Y2b(i) te maximaliseren en hun respectieve variantie te minimaliseren, zouden wij componenten kunnen verkrijgen die onderling goed gecorreleerd zijn, maar die Y1 en Y2 niet goed verklaren. Eens de oplossing voor i=1 verkregen, zoeken we de oplossing voor i=2 waarbij a(2) en b(2) respectievelijk orthogonaal moeten zijn aan a(1) en b(2), enzovoort. Het aantal vectoren dat kan worden geëxtraheerd is maximaal gelijk aan min(p, q).
Noot: De interbatterijenanalyse van Tucker (1958) is een alternatief waarbij men de covariantie tussen de Y1a(i)- en Y2b(i)-componenten wil maximaliseren.
Resultaten voor Canonieke correlatieanalyse in XLSTAT
- Similariteitsmatrix: . De matrix die overeenkomt met het “type analyse” gekozen in het dialoogvenster wordt weergegeven.
- Eigenwaarden en traagheidspercentages: In deze tabel worden de eigenwaarden, de bijbehorende traagheid, en de bijbehorende percentages weergegeven. Opmerking: in sommige software zijn de eigenwaarden die worden weergegeven gelijk aan L / (1-L), waarbij L de eigenwaarden zijn die door XLSTAT.
- Wilks Lambda-test: Met deze test kan worden bepaald of de twee tabellen Y1 en Y2 significant samenhangen met elke canonieke variabele.
- Canonieke correlaties: De canonieke correlaties, begrensd door 0 en 1, zijn hoger wanneer de correlatie tussen Y1 en Y2 hoog is. Zij geven echter niet aan in hoeverre de canonieke variabelen met Y1 en Y2 samenhangen. De gekwadrateerde canonieke correlaties zijn gelijk aan de eigenwaarden en komen in feite overeen met het percentage variabiliteit dat door de canonieke variabele wordt gedragen.
De onderstaande resultaten zijn afzonderlijk berekend voor elk van de twee groepen inputvariabelen.
- Redundantiecoëfficiënten: Met deze coëfficiënten kan voor elke groep invoervariabelen worden gemeten welk deel van de variabiliteit van de invoervariabelen wordt voorspeld door de canonieke variabelen.
- Canonieke coëfficiënten: Deze coëfficiënten (ook wel Canonieke gewichten, of Canonieke functiecoëfficiënten genoemd) geven aan hoe de canonieke variabelen zijn geconstrueerd, aangezien zij overeenkomen met de coëfficiënten in de lineaire combinatie die de canonieke variabelen genereert uit de inputvariabelen. Zij zijn gestandaardiseerd indien de inputvariabelen gestandaardiseerd zijn. In dat geval kunnen de relatieve gewichten van de inputvariabelen worden vergeleken.
- Correlaties tussen inputvariabelen en canonieke variabelen: Correlaties tussen inputvariabelen en canonieke variabelen (ook wel Structuurcorrelatiecoëfficiënten genoemd, of Canonieke factorladingen) maken het mogelijk te begrijpen hoe de canonieke variabelen zijn gerelateerd aan de inputvariabelen.
- Canonieke variabelen adequaatheidscoëfficiënten: De canonical variable adequacy coëfficiënten komen, voor een bepaalde canonical variable, overeen met de som van de gekwadrateerde correlaties tussen de inputvariabelen en de canonical variabelen, gedeeld door het aantal inputvariabelen. Zij geven het percentage variabiliteit aan dat door de betrokken canonieke variabele in aanmerking wordt genomen.
- Kwadraten van cosinussen: De gekwadrateerde cosinussen van de ingangsvariabelen in de ruimte van de canonieke variabelen maken het mogelijk te weten of een ingangsvariabele goed vertegenwoordigd is in de ruimte van de canonieke variabelen. De som van de gekwadrateerde cosinussen voor een gegeven ingangsvariabele is 1. De som over een beperkt aantal canonieke assen geeft de gemeenschappelijkheid.
- Scores: De scores komen overeen met de coördinaten van de waarnemingen in de ruimte van de canonieke variabelen.