Cook’s Distance¶

API Reference¶

Wizualizuj wpływ i wpływ poszczególnych instancji na model regresji.

classyellowbrick.regressor.influence.CooksDistance(ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, **kwargs)ś

Bazy: yellowbrick.base.Visualizer

Cook’s Distance jest miarą tego, jak wpływowa jest dana instancja na obliczanie regresji, np. czy gdyby usunąć daną instancję, to czy oszacowane współczynniki modelu bazowego uległyby znaczącej zmianie? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może podać procent danych, które są powyżej tego progu.

Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit(). Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji typu leave one out i może być kosztowne.

Zobacz także

Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.

Parametry axmatplotlib Osie, domyślnie: None

Osie, na których ma być wykreślona figura. Jeśli podano None, zostaną użyte bieżące osie (lub wygenerowane, jeśli jest to wymagane).

draw_thresholdbool, default: True

Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.

linefmtstr, default: 'C0-’

Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.

markerfmtstr, default: ’,’

Łańcuch określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. brak markera na szczycie działki.

kwargsdict

Słowa kluczowe, które są przekazywane do klasy bazowej i mogą mieć wpływ na ostateczną wizualizację (np. parametry rozmiaru lub tytułu).

Wskazówki

Odległość Cooka jest bardzo podobna do DFFITS, innej diagnozy, która ma pokazać, jak wpływowy jest punkt w regresji statystycznej. Chociaż obliczone wartości Cook’s i DFFITS są różne, są one koncepcyjnie identyczne i istnieje nawet zamknięta formuła do konwersji jednej wartości na drugą. Z tego powodu zdecydowaliśmy się zaimplementować odległość Cooka zamiast lub dodatkowo do DFFITS.

Atrybuty distance_array, 1D

Wartość odległości Cooka dla każdej instancji określonej w X, np. tablica 1D o kształcie (X.shape,).

p_values_array, 1D

Wartości p związane z testem F rozkładu odległości Cooka. A 1Darray whose shape matches distance_.

influence_threshold_float

Próg wpływu reguły kciuka do określenia wartości odstających w modelu regresji, zdefiniowany jako It=4/n.

outlier_percentage_float

Osetek instancji, których odległość Cooka jest większa od progu influncethreshold, procent wynosi 0.0 <= p <= 100.0.

draw()ś

Rysuje wykres łodygowy, gdzie każda łodyga jest odległością Cooka instancji przy indeksie określonym przez oś x. Opcjonalnie rysuje linię progową. Opcjonalnie rysuje linię progową.

finalize()Ś

Przygotowuje wizualizację do prezentacji i raportowania.

fit(X, y)Ś

Oblicza dźwignię X i używa reszt asklearn.linear_model.LinearRegression do obliczenia odległości Cooka każdej obserwacji w X, ich wartości p oraz liczby obserwacji odstających zdefiniowanych przez liczbę dostarczonych obserwacji.

Parametry Xarray-like, 2D

Macierz egzogeniczna projektu, np. dane treningowe.

yarray-like, 1D

Zmienna odpowiedzi endogenicznej, np. dane docelowe.

Returns selfCooksDistance

Fit zwraca instancję wizualizatora.

yellowbrick.regressor.influence.cooks_distance(X, y, ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, show=True, **kwargs)¶

Odległo¶ć Cooka jest miar± wpływu instancji na obliczenia regresji, np. czy usunięcie tej instancji spowodowałoby znacz±ce zmiany w szacowanych współczynnikach modelu bazowego? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może raportować procent danych, które są powyżej tego progu.

Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit(). Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji „leave one out” i może być drogie do obliczenia.

Zobacz także

Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.

Parametry Xarray-like, 2D

Macierz egzogeniczna konstrukcji, np. dane treningowe.

yarray-like, 1D

Zmienna endogeniczna odpowiedzi, np. dane docelowe.

axmatplotlib Osie, domyślnie: None

Osie, na których ma być wykreślona figura. If None is passed in the current axeswill be used (or generated if required).

draw_thresholdbool, default: True

Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.

linefmtstr, default: 'C0-’

Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.

markerfmt: str, default: ’,’

Ciąg określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. w zasadzie brak głowicy markera na górze działki macierzystej.

show: bool, default: True

Jeśli True, wywołuje show(), które z kolei wywołuje plt.show(), jakkolwiek nie można wywołać plt.savefig z tej sygnatury, aniclear_figure. If False, simply calls finalize()

kwargsdict

Keyword arguments that are passed to the base class and may influence the finalvisualization (e.g. size or title parameters).

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.