API Reference¶
Visualizar a influência e o aproveitamento de instâncias individuais em um modelo de regressão.
Classeyellowbrick.regressor.influence.
CooksDistance
(ax=Nenhum, draw_threshold=Verdadeiro, linefmt=’C0-‘, markerfmt=’,’, **kwargs)¶
Bases: yellowbrick.base.Visualizer
A Distância do cozinheiro é uma medida da influência de uma instância no cálculo de uma regressão, por exemplo, se a instância for removida, os coeficientes estimados do modelo subjacente seriam substancialmente alterados? Por causa disso, a Distância de Cook é usada de forma genérica para detectar outliers na regressão padrão, OLS. Na verdade, uma regra geral é que D(i) > 4/n é um bom limiar para determinar pontos altamente influentes como outliers e este visualizador pode reportar que a percentagem de datathat está acima desse limiar.
Esta implementação de Cook’s Distance assume a regressão dos Mínimos Quadrados Ordinários,e portanto incorpora um sklearn.linear_model.LinearRegression
sob o capô. A distância é computada através da alavancagem não hitened da matriz de projeção,computada dentro de fit()
. Os resultados deste visualizador são portanto semelhantes, mas não tão avançados, como um cálculo semelhante utilizando modelos de estatísmo. O cálculo da influência para outros modelos de regressão requer deixar um fora da validação e pode ser barato para calcular.
Ver também
Para uma discussão mais longa sobre a detecção de outliers na regressão e cálculo da média e influência, ver regressão linear em python, outlier/leveragedetect por Huiming Song.
Parâmetros eixos axmatplotlib, padrão: Nenhum
Os eixos para plotar a figura. Se None for passado nos eixos atuais será usado (ou gerado se necessário).
draw_thresholdbool, padrão: Verdadeiro
Desenhar uma linha horizontal em D(i) == 4/n para identificar facilmente os pontos mais influentes na regressão final. Isto também desenhará uma legenda que especifica a porcentagem de pontos de dados que estão acima do limite.
linefmtstr, padrão: ‘C0-‘
Uma string definindo as propriedades das linhas verticais do gráfico de tronco, normalmente isto será uma cor ou uma cor e um estilo de linha. O padrão é simplesmente uma linha sólida com a primeira cor do ciclo de cores.
markerfmtstr, padrão: ‘,’
Uma string definindo as propriedades dos marcadores nos cabeçotes de tronco do plotter. O defeito é “pixel”, por exemplo, basicamente sem cabeça do marcador no topo do plot de haste.
kwargsdict
Discussão de palavras-chave que são passadas para a classe base e podem influenciar a visualização final (por exemplo, parâmetros de tamanho ou título).
Notas
Distância de cozinheiro é muito semelhante a DFFITS, outro diagnóstico que se destina a mostrar o quão influente um ponto está em uma regressão estatística. Embora os valores computados de Cook e DFFITS sejam diferentes, eles são conceitualmente idênticos e existe até uma fórmula de forma fechada para converter um valor para outro. Por causa disto, escolhemos implementar a distância de Cook em vez de ou em adição a DFFITS.
Attributes distance_array, 1D
O valor da distância de Cook para cada instância especificada em X
, por exemplo um array 1D com forma (X.shape,)
.
p_values_array, 1D
Os valores de p associados ao teste F da distribuição de distância de Cook. Um 1Darray cuja forma corresponde a distance_
.
influence_threshold_float
Uma regra de influência de polegar limiar para determinar outliers no modelo de regressão, definido como It=4/n.
outlier_percentage_float
A percentagem de instâncias cuja distância de Cook é maior que o influncethreshold, a percentagem é 0.0 <= p <= 100.0.
draw
()¶
Drava um gráfico de haste onde cada haste é a Distância de Cook da instância no índice especificado pelo eixo x. Opcionalmente desenha uma linha limite.
finalize
()¶
Prepara a visualização para apresentação e relatório.
fit
(X, y)¶
Computa a alavancagem de X e utiliza os resíduos de asklearn.linear_model.LinearRegression
para calcular a Distância de eachobservação do cozinheiro em X, seus valores p e o número de aberturas definidas pelo número de observações fornecidas.
Parâmetros Xarray-like, 2D
A matriz de desenho exógeno, por exemplo, dados de treinamento.
Parâmetros tipo yarray-like, 1D
A variável de resposta endógena, por exemplo, dados de alvo.
Retorna autoCooksDistance
Fit retorna a instância visualizadora.
yellowbrick.regressor.influence.
cooks_distance
(X, y, ax=Nenhum, draw_threshold=Verdadeiro, linefmt=’C0-‘, markerfmt=’,’, show=verdadeiro, **kwargs)¶
Distância do cozinheiro é uma medida da influência de uma instância no cálculo de uma regressão, por exemplo, se a instância for removida, os coeficientes estimados do modelo subjacente seriam substancialmente alterados? Por causa disso, a Distância de Cook é usada de forma genérica para detectar outliers na regressão padrão, OLS. Na verdade, uma regra geral é que D(i) > 4/n é um bom limiar para determinar pontos altamente influentes como outliers e este visualizador pode reportar que a percentagem de datathat está acima desse limiar.
Esta implementação de Cook’s Distance assume a regressão dos Mínimos Quadrados Ordinários,e portanto incorpora um sklearn.linear_model.LinearRegression
sob o capô. A distância é computada através da alavancagem não hitened da matriz de projeção,computada dentro de fit()
. Os resultados deste visualizador são portanto semelhantes, mas não tão avançados, como um cálculo semelhante utilizando modelos de estatísmo. O cálculo da influência para outros modelos de regressão requer deixar um de fora da validação e pode ser barato de calcular.
Ver também
Para uma discussão mais longa sobre a detecção de outliers na regressão e cálculo da média e influência, ver regressão linear em python, outlier/leveragedetect por Huiming Song.
Parâmetros Xarray-like, 2D
A matriz de desenho exógeno, por exemplo, dados de treinamento.
Yarray-like, 1D
A variável de resposta endógena, por exemplo, dados alvo.
Eixos axmatplotlib, padrão: Nenhum
Os eixos em que se deve traçar a figura. Se None for passado nos eixos atuais será usado (ou gerado, se necessário).
draw_thresholdbool, padrão: Verdadeiro
Desenhar uma linha horizontal em D(i) == 4/n para identificar facilmente os pontos mais influentes na regressão final. Isto também desenhará uma legenda que especifica a porcentagem de pontos de dados que estão acima do limite.
linefmtstr, padrão: ‘C0-‘
Uma string definindo as propriedades das linhas verticais do gráfico de tronco, normalmente isto será uma cor ou uma cor e um estilo de linha. O padrão é simplesmente uma linha sólida com a primeira cor do ciclo de cores.
markerfmt: str, padrão: ‘,’
Uma string definindo as propriedades dos marcadores nos cabeçotes de tronco do plotter. O padrão é “pixel”, por exemplo, basicamente sem cabeça de marcador no topo do plot plot de haste.
mostrar: bool, padrão: True
If True, chama show()
, que por sua vez chama plt.show()
no entanto não pode chamar plt.savefig
a partir desta assinatura, nem clear_figure
. Se Falso, simplesmente chama finalize()
kwargsdict
Argumentos de palavra-chave que são passados para a classe base e podem influenciar a visualização final (por exemplo, parâmetros de tamanho ou título).