Cook’s Distance¶

API Reference¶

Visualizar a influência e o aproveitamento de instâncias individuais em um modelo de regressão.

Classeyellowbrick.regressor.influence.CooksDistance(ax=Nenhum, draw_threshold=Verdadeiro, linefmt=’C0-‘, markerfmt=’,’, **kwargs)¶

Bases: yellowbrick.base.Visualizer

A Distância do cozinheiro é uma medida da influência de uma instância no cálculo de uma regressão, por exemplo, se a instância for removida, os coeficientes estimados do modelo subjacente seriam substancialmente alterados? Por causa disso, a Distância de Cook é usada de forma genérica para detectar outliers na regressão padrão, OLS. Na verdade, uma regra geral é que D(i) > 4/n é um bom limiar para determinar pontos altamente influentes como outliers e este visualizador pode reportar que a percentagem de datathat está acima desse limiar.

Esta implementação de Cook’s Distance assume a regressão dos Mínimos Quadrados Ordinários,e portanto incorpora um sklearn.linear_model.LinearRegression sob o capô. A distância é computada através da alavancagem não hitened da matriz de projeção,computada dentro de fit(). Os resultados deste visualizador são portanto semelhantes, mas não tão avançados, como um cálculo semelhante utilizando modelos de estatísmo. O cálculo da influência para outros modelos de regressão requer deixar um fora da validação e pode ser barato para calcular.

Ver também

Para uma discussão mais longa sobre a detecção de outliers na regressão e cálculo da média e influência, ver regressão linear em python, outlier/leveragedetect por Huiming Song.

Parâmetros eixos axmatplotlib, padrão: Nenhum

Os eixos para plotar a figura. Se None for passado nos eixos atuais será usado (ou gerado se necessário).

draw_thresholdbool, padrão: Verdadeiro

Desenhar uma linha horizontal em D(i) == 4/n para identificar facilmente os pontos mais influentes na regressão final. Isto também desenhará uma legenda que especifica a porcentagem de pontos de dados que estão acima do limite.

linefmtstr, padrão: ‘C0-‘

Uma string definindo as propriedades das linhas verticais do gráfico de tronco, normalmente isto será uma cor ou uma cor e um estilo de linha. O padrão é simplesmente uma linha sólida com a primeira cor do ciclo de cores.

markerfmtstr, padrão: ‘,’

Uma string definindo as propriedades dos marcadores nos cabeçotes de tronco do plotter. O defeito é “pixel”, por exemplo, basicamente sem cabeça do marcador no topo do plot de haste.

kwargsdict

Discussão de palavras-chave que são passadas para a classe base e podem influenciar a visualização final (por exemplo, parâmetros de tamanho ou título).

Notas

Distância de cozinheiro é muito semelhante a DFFITS, outro diagnóstico que se destina a mostrar o quão influente um ponto está em uma regressão estatística. Embora os valores computados de Cook e DFFITS sejam diferentes, eles são conceitualmente idênticos e existe até uma fórmula de forma fechada para converter um valor para outro. Por causa disto, escolhemos implementar a distância de Cook em vez de ou em adição a DFFITS.

Attributes distance_array, 1D

O valor da distância de Cook para cada instância especificada em X, por exemplo um array 1D com forma (X.shape,).

p_values_array, 1D

Os valores de p associados ao teste F da distribuição de distância de Cook. Um 1Darray cuja forma corresponde a distance_.

influence_threshold_float

Uma regra de influência de polegar limiar para determinar outliers no modelo de regressão, definido como It=4/n.

outlier_percentage_float

A percentagem de instâncias cuja distância de Cook é maior que o influncethreshold, a percentagem é 0.0 <= p <= 100.0.

draw()¶

Drava um gráfico de haste onde cada haste é a Distância de Cook da instância no índice especificado pelo eixo x. Opcionalmente desenha uma linha limite.

finalize()¶

Prepara a visualização para apresentação e relatório.

fit(X, y)¶

Computa a alavancagem de X e utiliza os resíduos de asklearn.linear_model.LinearRegression para calcular a Distância de eachobservação do cozinheiro em X, seus valores p e o número de aberturas definidas pelo número de observações fornecidas.

Parâmetros Xarray-like, 2D

A matriz de desenho exógeno, por exemplo, dados de treinamento.

Parâmetros tipo yarray-like, 1D

A variável de resposta endógena, por exemplo, dados de alvo.

Retorna autoCooksDistance

Fit retorna a instância visualizadora.

yellowbrick.regressor.influence.cooks_distance(X, y, ax=Nenhum, draw_threshold=Verdadeiro, linefmt=’C0-‘, markerfmt=’,’, show=verdadeiro, **kwargs)¶

Distância do cozinheiro é uma medida da influência de uma instância no cálculo de uma regressão, por exemplo, se a instância for removida, os coeficientes estimados do modelo subjacente seriam substancialmente alterados? Por causa disso, a Distância de Cook é usada de forma genérica para detectar outliers na regressão padrão, OLS. Na verdade, uma regra geral é que D(i) > 4/n é um bom limiar para determinar pontos altamente influentes como outliers e este visualizador pode reportar que a percentagem de datathat está acima desse limiar.

Esta implementação de Cook’s Distance assume a regressão dos Mínimos Quadrados Ordinários,e portanto incorpora um sklearn.linear_model.LinearRegression sob o capô. A distância é computada através da alavancagem não hitened da matriz de projeção,computada dentro de fit(). Os resultados deste visualizador são portanto semelhantes, mas não tão avançados, como um cálculo semelhante utilizando modelos de estatísmo. O cálculo da influência para outros modelos de regressão requer deixar um de fora da validação e pode ser barato de calcular.

Ver também

Para uma discussão mais longa sobre a detecção de outliers na regressão e cálculo da média e influência, ver regressão linear em python, outlier/leveragedetect por Huiming Song.

Parâmetros Xarray-like, 2D

A matriz de desenho exógeno, por exemplo, dados de treinamento.

Yarray-like, 1D

A variável de resposta endógena, por exemplo, dados alvo.

Eixos axmatplotlib, padrão: Nenhum

Os eixos em que se deve traçar a figura. Se None for passado nos eixos atuais será usado (ou gerado, se necessário).

draw_thresholdbool, padrão: Verdadeiro

Desenhar uma linha horizontal em D(i) == 4/n para identificar facilmente os pontos mais influentes na regressão final. Isto também desenhará uma legenda que especifica a porcentagem de pontos de dados que estão acima do limite.

linefmtstr, padrão: ‘C0-‘

Uma string definindo as propriedades das linhas verticais do gráfico de tronco, normalmente isto será uma cor ou uma cor e um estilo de linha. O padrão é simplesmente uma linha sólida com a primeira cor do ciclo de cores.

markerfmt: str, padrão: ‘,’

Uma string definindo as propriedades dos marcadores nos cabeçotes de tronco do plotter. O padrão é “pixel”, por exemplo, basicamente sem cabeça de marcador no topo do plot plot de haste.

mostrar: bool, padrão: True

If True, chama show(), que por sua vez chama plt.show() no entanto não pode chamar plt.savefig a partir desta assinatura, nem clear_figure. Se Falso, simplesmente chama finalize()

kwargsdict

Argumentos de palavra-chave que são passados para a classe base e podem influenciar a visualização final (por exemplo, parâmetros de tamanho ou título).

Deixe uma resposta

O seu endereço de email não será publicado.