API Reference¶
Wizualizuj wpływ i wpływ poszczególnych instancji na model regresji.
classyellowbrick.regressor.influence.CooksDistance(ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, **kwargs)ś
Bazy: yellowbrick.base.Visualizer
Cook’s Distance jest miarą tego, jak wpływowa jest dana instancja na obliczanie regresji, np. czy gdyby usunąć daną instancję, to czy oszacowane współczynniki modelu bazowego uległyby znaczącej zmianie? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może podać procent danych, które są powyżej tego progu.
Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit(). Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji typu leave one out i może być kosztowne.
Zobacz także
Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.
Parametry axmatplotlib Osie, domyślnie: None
Osie, na których ma być wykreślona figura. Jeśli podano None, zostaną użyte bieżące osie (lub wygenerowane, jeśli jest to wymagane).
draw_thresholdbool, default: True
Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.
linefmtstr, default: 'C0-’
Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.
markerfmtstr, default: ’,’
Łańcuch określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. brak markera na szczycie działki.
kwargsdict
Słowa kluczowe, które są przekazywane do klasy bazowej i mogą mieć wpływ na ostateczną wizualizację (np. parametry rozmiaru lub tytułu).
Wskazówki
Odległość Cooka jest bardzo podobna do DFFITS, innej diagnozy, która ma pokazać, jak wpływowy jest punkt w regresji statystycznej. Chociaż obliczone wartości Cook’s i DFFITS są różne, są one koncepcyjnie identyczne i istnieje nawet zamknięta formuła do konwersji jednej wartości na drugą. Z tego powodu zdecydowaliśmy się zaimplementować odległość Cooka zamiast lub dodatkowo do DFFITS.
Atrybuty distance_array, 1D
Wartość odległości Cooka dla każdej instancji określonej w X, np. tablica 1D o kształcie (X.shape,).
p_values_array, 1D
Wartości p związane z testem F rozkładu odległości Cooka. A 1Darray whose shape matches distance_.
influence_threshold_float
Próg wpływu reguły kciuka do określenia wartości odstających w modelu regresji, zdefiniowany jako It=4/n.
outlier_percentage_float
Osetek instancji, których odległość Cooka jest większa od progu influncethreshold, procent wynosi 0.0 <= p <= 100.0.
draw()ś
Rysuje wykres łodygowy, gdzie każda łodyga jest odległością Cooka instancji przy indeksie określonym przez oś x. Opcjonalnie rysuje linię progową. Opcjonalnie rysuje linię progową.
finalize()Ś
Przygotowuje wizualizację do prezentacji i raportowania.
fit(X, y)Ś
Oblicza dźwignię X i używa reszt asklearn.linear_model.LinearRegression do obliczenia odległości Cooka każdej obserwacji w X, ich wartości p oraz liczby obserwacji odstających zdefiniowanych przez liczbę dostarczonych obserwacji.
Parametry Xarray-like, 2D
Macierz egzogeniczna projektu, np. dane treningowe.
yarray-like, 1D
Zmienna odpowiedzi endogenicznej, np. dane docelowe.
Returns selfCooksDistance
Fit zwraca instancję wizualizatora.
yellowbrick.regressor.influence.cooks_distance(X, y, ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, show=True, **kwargs)¶
Odległo¶ć Cooka jest miar± wpływu instancji na obliczenia regresji, np. czy usunięcie tej instancji spowodowałoby znacz±ce zmiany w szacowanych współczynnikach modelu bazowego? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może raportować procent danych, które są powyżej tego progu.
Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit(). Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji „leave one out” i może być drogie do obliczenia.
Zobacz także
Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.
Parametry Xarray-like, 2D
Macierz egzogeniczna konstrukcji, np. dane treningowe.
yarray-like, 1D
Zmienna endogeniczna odpowiedzi, np. dane docelowe.
axmatplotlib Osie, domyślnie: None
Osie, na których ma być wykreślona figura. If None is passed in the current axeswill be used (or generated if required).
draw_thresholdbool, default: True
Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.
linefmtstr, default: 'C0-’
Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.
markerfmt: str, default: ’,’
Ciąg określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. w zasadzie brak głowicy markera na górze działki macierzystej.
show: bool, default: True
Jeśli True, wywołuje show(), które z kolei wywołuje plt.show(), jakkolwiek nie można wywołać plt.savefig z tej sygnatury, aniclear_figure. If False, simply calls finalize()
kwargsdict
Keyword arguments that are passed to the base class and may influence the finalvisualization (e.g. size or title parameters).
.