Origins and aim of Canonical Correlation Analysis
Canonical Correlation Analysis (CCorA, às vezes CCA, mas preferimos usar CCA para Canonical Correspondence Analysis) é um dos muitos métodos estatísticos que permitem estudar a relação entre dois conjuntos de variáveis.Ela estuda a correlação entre dois conjuntos de variáveis e extrai dessas tabelas um conjunto de variáveis canônicas que são tanto quanto possível correlacionadas com as duas tabelas e ortogonais uma à outra.
Descoberto por Hotelling (1936) este método é muito usado em ecologia mas tem sido suplantado pela RDA (Análise de Redundância) e pela CCA (Análise de Correspondência Canônica).
Princípios da Análise de Correlação Canônica
Este método é simétrico, ao contrário da RDA, e não é orientado para predição. Deixe Y1 e Y2 serem duas tabelas, com respectivamente variáveis p e q. A Análise de Correlação Canónica visa obter dois vectores a(i) e b(i) tais que
ρ(i) = cor = cov(Y1a(i) Y2b(i)) /
é maximizado. As restrições devem ser introduzidas para que a solução para a(i) e b(i) seja única. Como estamos no final tentando maximizar a covariância entre Y1a(i) e Y2b(i) e para minimizar sua respectiva variância, podemos obter componentes que estão bem correlacionados entre si, mas que não estão explicando bem Y1 e Y2. Uma vez obtida a solução para i=1, procuramos a solução para i=2 onde a(2) e b(2) devem ser respectivamente ortogonais para a(1) e b(2), e assim por diante. O número de vectores que podem ser extraídos é no máximo igual a min(p, q).
Nota: A análise inter-batteries de Tucker (1958) é uma alternativa onde se pretende maximizar a covariância entre os componentes Y1a(i) e Y2b(i).
Resultados para Análise de Correlação Canónica em XLSTAT
- Matriz de similaridade: . A matriz que corresponde ao “tipo de análise” escolhido na caixa de diálogo é exibida.
- Eigenvalues and percentages of inertia: Nesta tabela são exibidos os autovalores, a inércia correspondente, e as percentagens correspondentes. Nota: em algum software, os autovalores que são exibidos são iguais a L / (1-L), onde L é os autovalores dados por XLSTAT.
- Teste Lambda de leito: Este teste permite determinar se as duas tabelas Y1 e Y2 estão significativamente relacionadas com cada variável canónica.
- Canônicas correlações: As correlações canônicas, delimitadas por 0 e 1, são maiores quando a correlação entre Y1 e Y2 é alta. No entanto, elas não dizem até que ponto as variáveis canônicas estão relacionadas a Y1 e Y2. As correlações canônicas quadradas são iguais aos valores próprios e, na verdade, correspondem à porcentagem de variabilidade levada pela variável canônica.
Os resultados listados abaixo são computados separadamente para cada um dos dois grupos de variáveis de entrada.
- Coeficientes de redundância: Estes coeficientes permitem medir para cada conjunto de variáveis de input que proporção da variabilidade das variáveis de input é prevista pelas variáveis canônicas.
- Coeficientes canônicos: Estes coeficientes (também chamados de pesos canônicos, ou coeficientes de função canônica) indicam como as variáveis canônicas foram construídas, pois correspondem aos coeficientes na combinação linear que gera as variáveis canônicas a partir das variáveis de input. Elas são padronizadas se as variáveis de entrada tiverem sido padronizadas. Nesse caso, os pesos relativos das variáveis de entrada podem ser comparados.
- Correlações entre as variáveis de entrada e as variáveis canônicas: Correlações entre variáveis de entrada e variáveis canônicas (também chamadas de coeficientes de correlação de estrutura, ou cargas de fatores canônicos) permitem entender como as variáveis canônicas estão relacionadas às variáveis de entrada.
- Coeficientes de adequação das variáveis canônicas: Os coeficientes de adequação das variáveis canônicas correspondem, para uma dada variável canônica, à soma das correlações quadráticas entre as variáveis de entrada e as variáveis canônicas, dividida pelo número de variáveis de entrada. Eles dão a porcentagem de variabilidade considerada pela variável canônica de interesse.
- Cosinesines de quadrado: As cossines quadradas das variáveis de entrada no espaço das variáveis canônicas permitem saber se uma variável de entrada está bem representada no espaço das variáveis canônicas. A soma sobre um número reduzido de eixos canônicos dá a comunalidade.
- Parâmetros: As pontuações correspondem às coordenadas das observações no espaço das variáveis canônicas.