API Reference¶
Wizualizuj wpływ i wpływ poszczególnych instancji na model regresji.
classyellowbrick.regressor.influence.
CooksDistance
(ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, **kwargs)ś
Bazy: yellowbrick.base.Visualizer
Cook’s Distance jest miarą tego, jak wpływowa jest dana instancja na obliczanie regresji, np. czy gdyby usunąć daną instancję, to czy oszacowane współczynniki modelu bazowego uległyby znaczącej zmianie? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może podać procent danych, które są powyżej tego progu.
Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression
pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit()
. Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji typu leave one out i może być kosztowne.
Zobacz także
Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.
Parametry axmatplotlib Osie, domyślnie: None
Osie, na których ma być wykreślona figura. Jeśli podano None, zostaną użyte bieżące osie (lub wygenerowane, jeśli jest to wymagane).
draw_thresholdbool, default: True
Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.
linefmtstr, default: 'C0-’
Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.
markerfmtstr, default: ’,’
Łańcuch określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. brak markera na szczycie działki.
kwargsdict
Słowa kluczowe, które są przekazywane do klasy bazowej i mogą mieć wpływ na ostateczną wizualizację (np. parametry rozmiaru lub tytułu).
Wskazówki
Odległość Cooka jest bardzo podobna do DFFITS, innej diagnozy, która ma pokazać, jak wpływowy jest punkt w regresji statystycznej. Chociaż obliczone wartości Cook’s i DFFITS są różne, są one koncepcyjnie identyczne i istnieje nawet zamknięta formuła do konwersji jednej wartości na drugą. Z tego powodu zdecydowaliśmy się zaimplementować odległość Cooka zamiast lub dodatkowo do DFFITS.
Atrybuty distance_array, 1D
Wartość odległości Cooka dla każdej instancji określonej w X
, np. tablica 1D o kształcie (X.shape,)
.
p_values_array, 1D
Wartości p związane z testem F rozkładu odległości Cooka. A 1Darray whose shape matches distance_
.
influence_threshold_float
Próg wpływu reguły kciuka do określenia wartości odstających w modelu regresji, zdefiniowany jako It=4/n.
outlier_percentage_float
Osetek instancji, których odległość Cooka jest większa od progu influncethreshold, procent wynosi 0.0 <= p <= 100.0.
draw
()ś
Rysuje wykres łodygowy, gdzie każda łodyga jest odległością Cooka instancji przy indeksie określonym przez oś x. Opcjonalnie rysuje linię progową. Opcjonalnie rysuje linię progową.
finalize
()Ś
Przygotowuje wizualizację do prezentacji i raportowania.
fit
(X, y)Ś
Oblicza dźwignię X i używa reszt asklearn.linear_model.LinearRegression
do obliczenia odległości Cooka każdej obserwacji w X, ich wartości p oraz liczby obserwacji odstających zdefiniowanych przez liczbę dostarczonych obserwacji.
Parametry Xarray-like, 2D
Macierz egzogeniczna projektu, np. dane treningowe.
yarray-like, 1D
Zmienna odpowiedzi endogenicznej, np. dane docelowe.
Returns selfCooksDistance
Fit zwraca instancję wizualizatora.
yellowbrick.regressor.influence.
cooks_distance
(X, y, ax=None, draw_threshold=True, linefmt=’C0-’, markerfmt=’,’, show=True, **kwargs)¶
Odległo¶ć Cooka jest miar± wpływu instancji na obliczenia regresji, np. czy usunięcie tej instancji spowodowałoby znacz±ce zmiany w szacowanych współczynnikach modelu bazowego? Z tego powodu odległość Cooka jest powszechnie używana do wykrywania wartości odstających w standardowej regresji OLS. W rzeczywistości, ogólna zasada kciuka mówi, że D(i) > 4/n jest dobrym progiem dla określenia wysoce wpływowych punktów jako odstających, a ten wizualizer może raportować procent danych, które są powyżej tego progu.
Ta implementacja Cook’s Distance zakłada regresję Ordinary Least Squares, a zatem osadza sklearn.linear_model.LinearRegression
pod maską.Distance jest obliczana poprzez nie wybieloną dźwignię macierzy projekcji, obliczoną wewnątrz fit()
. Wyniki tego wizualizatora są więc podobne, ale nie tak zaawansowane, jak podobne obliczenia z użyciem modeli statystycznych. Obliczanie wpływu dla innych modeli regresji wymaga walidacji „leave one out” i może być drogie do obliczenia.
Zobacz także
Dłuższą dyskusję na temat wykrywania wartości odstających w regresji oraz obliczania dźwigni i wpływu można znaleźć w artykule Linear regression in python, outliers/leveragedetect autorstwa Huiming Song.
Parametry Xarray-like, 2D
Macierz egzogeniczna konstrukcji, np. dane treningowe.
yarray-like, 1D
Zmienna endogeniczna odpowiedzi, np. dane docelowe.
axmatplotlib Osie, domyślnie: None
Osie, na których ma być wykreślona figura. If None is passed in the current axeswill be used (or generated if required).
draw_thresholdbool, default: True
Narysuj poziomą linię przy D(i) == 4/n, aby łatwo zidentyfikować najbardziej wpływowe punkty na końcowej regresji. Spowoduje to również narysowanie legendy, która określa procent punktów danych, które są powyżej progu.
linefmtstr, default: 'C0-’
Łańcuch określający właściwości pionowych linii wykresu macierzystego, zwykle będzie to kolor lub kolor i styl linii. Domyślnie jest to po prostu linia jednolita o pierwszym kolorze cyklu kolorów.
markerfmt: str, default: ’,’
Ciąg określający właściwości znaczników w głowach działek macierzystych. Domyślnie jest to „pixel”, np. w zasadzie brak głowicy markera na górze działki macierzystej.
show: bool, default: True
Jeśli True, wywołuje show()
, które z kolei wywołuje plt.show()
, jakkolwiek nie można wywołać plt.savefig
z tej sygnatury, aniclear_figure
. If False, simply calls finalize()
kwargsdict
Keyword arguments that are passed to the base class and may influence the finalvisualization (e.g. size or title parameters).
.