Původ a cíl kanonické korelační analýzy
Kanonická korelační analýza (CCorA, někdy CCA, ale raději používáme CCA pro kanonickou korespondenční analýzu) je jednou z mnoha statistických metod, které umožňují studovat vztah mezi dvěma soubory proměnných.Studuje korelaci mezi dvěma soubory proměnných a extrahuje z těchto tabulek soubor kanonických proměnných, které jsou co nejvíce korelované s oběma tabulkami a navzájem ortogonální.
Objevil ji Hotelling (1936), tato metoda se hodně používá v ekologii, ale byla vytlačena metodou RDA (Redundancy Analysis) a metodou CCA (Canonical Correspondence Analysis).
Principy kanonické korelační analýzy
Tato metoda je na rozdíl od RDA symetrická a není zaměřena na predikci. Nechť Y1 a Y2 jsou dvě tabulky s p, resp. q proměnnými. Cílem kanonické korelační analýzy je získat dva vektory a(i) a b(i) takové, že
ρ(i) = cor = cov(Y1a(i) Y2b(i)). /
je maximalizován. Je třeba zavést omezení, aby řešení pro a(i) a b(i) bylo jednoznačné. Protože se nakonec snažíme maximalizovat kovariance mezi Y1a(i) a Y2b(i) a minimalizovat jejich příslušné rozptyly, můžeme získat složky, které jsou mezi sebou dobře korelované, ale které dobře nevysvětlují Y1 a Y2. Po získání řešení pro i=1 hledáme řešení pro i=2, kde a(2) a b(2) musí být ortogonální k a(1), resp. b(2), a tak dále. Počet vektorů, které lze extrahovat, je maximálně roven min(p, q).
Poznámka: Tuckerova (1958) mezibaterní analýza je alternativou, kdy chceme maximalizovat kovarianci mezi složkami Y1a(i) a Y2b(i).
Výsledky pro kanonickou korelační analýzu v XLSTAT
- Matice podobnosti: . Zobrazí se matice, která odpovídá „typu analýzy“ zvolenému v dialogovém okně.
- Vlastní čísla a procenta setrvačnosti: V této tabulce jsou zobrazena vlastní čísla, odpovídající setrvačnost a odpovídající procenta. Poznámka: v některých programech se zobrazená vlastní čísla rovnají L / (1-L), kde L jsou vlastní čísla daná programem XLSTAT.
- Wilksův Lambda test: Tento test umožňuje určit, zda dvě tabulky Y1 a Y2 významně souvisejí s každou kanonickou proměnnou.
- Kanonické korelace: Kanonické korelace, omezené hodnotami 0 a 1, jsou vyšší, když je korelace mezi Y1 a Y2 vysoká. Nevypovídají však o tom, do jaké míry kanonické proměnné souvisejí s Y1 a Y2. Kvadrát kanonických korelací je roven vlastním hodnotám a ve skutečnosti odpovídá procentu variability, kterou nese kanonická proměnná.
Níže uvedené výsledky jsou vypočteny zvlášť pro každou ze dvou skupin vstupních proměnných.
- Koeficienty redundance: Tyto koeficienty umožňují pro každou skupinu vstupních proměnných změřit, jakou část variability vstupních proměnných předpovídají kanonické proměnné.
- Kanonické koeficienty: Tyto koeficienty (nazývané také kanonické váhy nebo koeficienty kanonické funkce) udávají, jak byly kanonické proměnné zkonstruovány, neboť odpovídají koeficientům v lineární kombinaci, která generuje kanonické proměnné ze vstupních proměnných. Jsou standardizované, pokud byly vstupní proměnné standardizovány. V takovém případě lze porovnat relativní váhy vstupních proměnných.
- Korelace mezi vstupními proměnnými a kanonickými proměnnými: Korelace mezi vstupními proměnnými a kanonickými proměnnými (nazývané také strukturní korelační koeficienty nebo kanonické faktorové zátěže) umožňují pochopit, jak kanonické proměnné souvisejí se vstupními proměnnými.
- Koeficienty přiměřenosti kanonických proměnných: Koeficienty adekvátnosti kanonických proměnných odpovídají pro danou kanonickou proměnnou součtu kvadratických korelací mezi vstupními proměnnými a kanonickými proměnnými vydělenému počtem vstupních proměnných. Udávají procento variability zohledněné kanonickou proměnnou, která je předmětem zájmu.
- Kvadratické kosiny: Kvadratické kosiny vstupních proměnných v prostoru kanonických proměnných umožňují zjistit, zda je vstupní proměnná dobře zastoupena v prostoru kanonických proměnných. Součet kvadratických kosinů pro danou vstupní proměnnou je roven 1. Součet přes redukovaný počet kanonických os udává obecnost.
- Skóre: Skóre odpovídají souřadnicím pozorování v prostoru kanonických proměnných.
.