Cook’s Distance¶

API Reference¶

Visualizza l’influenza e la leva delle singole istanze su un modello di regressione.

classeyellowbrick.regressor.influence.CooksDistance(ax=None, draw_threshold=True, linefmt=’C0-‘, markerfmt=’,’, **kwargs)¶

Basi: yellowbrick.base.Visualizer

La distanza di Cook è una misura di quanto sia influente un’istanza nel calcolo di una regressione, ad esempio se l’istanza viene rimossa, i coefficienti stimati del modello sottostante sarebbero sostanzialmente cambiati? Per questo motivo, la distanza di Cook è generalmente utilizzata per individuare i valori anomali nella regressione OLS standard. Infatti, una regola generale è che D(i) > 4/n è una buona soglia per determinare i punti altamente influenti come outliers e questo visualizzatore può riportare la percentuale di dati che è sopra quella soglia.

Questa implementazione di Cook’s Distance presuppone la regressione Ordinary Least Squares, e quindi incorpora un sklearn.linear_model.LinearRegression sotto il cappuccio.La distanza è calcolata tramite la leva non sbiancata della matrice di proiezione, calcolata all’interno di fit(). I risultati di questo visualizzatore sono quindi simili, ma non così avanzati, come un calcolo simile utilizzando modelli statistici. Il calcolo dell’influenza per altri modelli di regressione richiede di lasciare una convalida e può essere costoso da calcolare.

Vedi anche

Per una discussione più lunga sul rilevamento di outlier nella regressione e sul calcolo dell’influenza e della leva, vedi regressione lineare in python, outliers/leveragedetect di Huiming Song.

Parametri axmatplotlib Axes, default: None

Gli assi su cui tracciare la figura. Se viene passato None verranno usati gli assi correnti (o generati se necessario).

draw_thresholdbool, default: True

Disegna una linea orizzontale a D(i) == 4/n per identificare facilmente i punti più influenti sulla regressione finale. Questo disegnerà anche una legenda che specifica la percentuale di punti dati che sono sopra la soglia.

linefmtstr, default: ‘C0-‘

Una stringa che definisce le proprietà delle linee verticali del grafico a stelo, di solito questo sarà un colore o un colore e uno stile di linea. L’impostazione predefinita è semplicemente una linea continua con il primo colore del ciclo dei colori.

markerfmtstr, default: ‘,’

Una stringa che definisce le proprietà dei marcatori alle teste del diagramma a stelo. L’impostazione predefinita è “pixel”, ad esempio fondamentalmente nessuna testa di marcatore nella parte superiore del grafico a stelo.

kwargsdict

Amministratori di parole chiave che vengono passati alla classe base e che possono influenzare la visualizzazione finale (ad esempio i parametri di dimensione o titolo).

Note

La distanza di Cook è molto simile a DFFITS, un altro diagnostico che ha lo scopo di mostrare quanto sia influente un punto in una regressione statistica. Anche se i valori calcolati di Cook’s e DFFITS sono diversi, sono concettualmente identici ed esiste persino una formula in forma chiusa per convertire un valore in un altro. Per questo motivo, abbiamo scelto di implementare la distanza di Cook piuttosto che o in aggiunta a DFFITS.

Attributi distance_array, 1D

Il valore della distanza di Cook per ogni istanza specificata in X, ad esempio un array 1D con forma (X.shape,).

p_values_array, 1D

I valori p associati al test F della distribuzione della distanza di Cook. Una matrice 1D la cui forma corrisponde a distance_.

influence_threshold_float

Una soglia d’influenza di regola per determinare gli outlier nel modello di regressione, definita come It=4/n.

outlier_percentage_float

La percentuale di istanze la cui distanza di Cook è maggiore della soglia di influenza, la percentuale è 0,0 <= p <= 100,0.

draw()¶

Disegna un grafico a stelo dove ogni stelo è la distanza di Cook dell’istanza all’indice specificato dall’asse x. Opzionalmente disegna una linea di soglia.

finalize()¶

Prepara la visualizzazione per la presentazione e la segnalazione.

fit(X, y)¶

Computa la leva di X e usa i residui di asklearn.linear_model.LinearRegression per calcolare la distanza di Cook di ogni osservazione in X, i loro valori p e il numero di outlier definito dal numero di osservazioni fornite.

Parametri Xarray-like, 2D

La matrice di disegno esogeno, per esempio i dati di allenamento.

yarray-like, 1D

La variabile di risposta endogena, ad esempio i dati di destinazione.

Restituisce selfCooksDistance

Fit restituisce l’istanza del visualizzatore.

yellowbrick.regressor.influence.cooks_distance(X, y, ax=Nessuno, draw_threshold=True, linefmt=’C0-‘, markerfmt=’,’, show=True, **kwargs)¶

La distanza di Cook è una misura di quanto sia influente un’istanza nel calcolo di una regressione, ad esempio se l’istanza viene rimossa i coeficienti stimati del modello sottostante sarebbero sostanzialmente cambiati? Per questo motivo, la distanza di Cook è generalmente utilizzata per individuare i valori anomali nella regressione OLS standard. Infatti, una regola generale è che D(i) > 4/n è una buona soglia per determinare i punti altamente influenti come outliers e questo visualizzatore può riportare la percentuale di dati che è sopra quella soglia.

Questa implementazione di Cook’s Distance presuppone la regressione Ordinary Least Squares, e quindi incorpora un sklearn.linear_model.LinearRegression sotto il cappuccio.La distanza è calcolata tramite la leva non sbiancata della matrice di proiezione, calcolata all’interno di fit(). I risultati di questo visualizzatore sono quindi simili, ma non così avanzati, come un calcolo simile utilizzando modelli statistici. Il calcolo dell’influenza per altri modelli di regressione richiede di lasciare una convalida e può essere costoso da calcolare.

Vedi anche

Per una discussione più lunga sul rilevamento di outlier nella regressione e sul calcolo della leva e dell’influenza, vedi regressione lineare in python, outliers/leveragedetect di Huiming Song.

Parametri Xarray-like, 2D

La matrice di progetto esogena, ad esempio i dati di allenamento.

yarray-like, 1D

La variabile di risposta endogena, ad esempio i dati target.

axmatplotlib Assi, default: None

Gli assi su cui tracciare la figura. Se viene passato None verranno usati gli assi correnti (o generati se necessario).

draw_thresholdbool, default: True

Disegna una linea orizzontale a D(i) == 4/n per identificare facilmente i punti più influenti sulla regressione finale. Questo disegnerà anche una legenda che specifica la percentuale di punti dati che sono sopra la soglia.

linefmtstr, default: ‘C0-‘

Una stringa che definisce le proprietà delle linee verticali del grafico a stelo, di solito questo sarà un colore o un colore e uno stile di linea. L’impostazione predefinita è semplicemente una linea continua con il primo colore del ciclo dei colori.

markerfmt: str, default: ‘,’

Una stringa che definisce le proprietà dei marcatori alle teste del diagramma a stelo. L’impostazione predefinita è “pixel”, ad esempio fondamentalmente nessuna testa di marcatore in cima al grafico a stelo.

show: bool, default: True

Se True, chiama show(), che a sua volta chiama plt.show() come non è possibile chiamare plt.savefig da questa firma, néclear_figure. Se False, chiama semplicemente finalize()

kwargsdict

Gli argomenti delle parole chiave che vengono passati alla classe base e che possono influenzare la visualizzazione finale (ad esempio, i parametri di dimensione o titolo).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.