API Reference¶
回帰モデルにおける個々のインスタンスの影響力とレバレッジを可視化します。
class yellowbrick.regressor.influence.
CooksDistance
(ax=None, draw_threshold=True, linefmt=’C0-‘, markerfmt=’, **kwargs)¶
Bases.Base: yellowbrick.base.Visualizer
Cook’s Distanceは、あるインスタンスが回帰計算に対してどの程度影響力があるかを示す指標です。例えば、そのインスタンスを削除したら、基礎となるモデルの推定係数は大幅に変化するでしょうか。 このため,Cookの距離は,一般に,標準的なOLS 回帰における外れ値を検出するために使用される. 実際、一般的な経験則では、D(i) > 4/n は、影響力の強い点を外れ値として決定するための良いしきい値であり、このビジュアライザーは、そのしきい値を超えているデータの割合を報告できます。
この Cook の距離の実装では、普通最小二乗回帰を想定し、したがってフード下に sklearn.linear_model.LinearRegression
が埋め込まれています。 したがって、このビジュアライザの結果は、統計モデルを使った同様の計算と似ていますが、それほど高度なものではありません。
See also
回帰における外れ値の検出およびレバレッジと影響力の計算に関するより長い議論については、Huiming Song による linear regression in python, outliers/leveragedetect を参照してください。 None
図をプロットする軸を指定します。 Noneが渡された場合、現在の軸が使用されます(必要であれば生成されます)。
draw_thresholdbool, default: True
D(i) == 4/n で水平線を引き、最終回帰で最も影響力のある点を簡単に特定できるようにする。
linefmtstr, default: ‘C0-‘
幹グラフの垂直線のプロパティを定義する文字列、通常は色か色と線のスタイルになります。
markerfmtstr, default: ‘,’
幹プロットヘッドにあるマーカーのプロパティを定義する文字列。
kwargsdict
基底クラスに渡され、最終的な視覚化に影響を与えるかもしれないキーワード引数 (例えば、サイズやタイトルパラメータ).
Notes
Cookの距離はDFFITSと非常に似ており、点が統計回帰においてどれだけ影響力があるかを示すための別の診断法である。 Cookの距離とDFFITSの計算値は異なりますが、概念的には同じであり、ある値を別の値に変換する閉形式さえ存在します。
属性 distance_array, 1D
X
で指定された各インスタンスに対するクックの距離値、例えば形状(X.shape,)
の1次元配列。 distance_
.
influence_threshold_float
回帰モデルにおける外れ値を決定するための経験則的影響閾値で、It=4/n として定義されます。
outlier_percentage_float
クックの距離が influncethreshold より大きいインスタンスの割合、割合は 0.0 <= p <= 100.0.
draw
()¶
各茎が x 軸で指定したインデックスでのインスタンスのクックの距離となる茎プロットを描画します。
finalize
()¶
プレゼンテーションとレポートのために可視化を準備します。
fit
(X, y)¶
Xのテコを計算し、asklearn.linear_model.LinearRegression
の残差を使用して、Xの各観測のクックの距離、それらのp値、および与えられた観測の数によって定義される外れ値の数を計算する。
パラメータ Xarray-like, 2D
外生デザイン行列、例えば、トレーニングデータです。
yarray-like, 1D
内生応答変数(例:ターゲットデータ)
Returns selfCooksDistance
Fitはビジュアライザーのインスタンスを返す。
yellowbrick.regressor.influence.
cooks_distance
(X, y, ax=None, draw_threshold=True, linefmt=’C0-‘, markerfmt=’, show=True, **kwargs)¶
Cooks Distanceは、あるサンプルが回帰計算に対してどれだけ影響力があるかを示す指標で、例えばそのサンプルを除去したら基礎モデルの推定係数が大きく変わるのか、などです。 このため,Cookの距離は,一般に,標準的なOLS 回帰における外れ値を検出するために使用される. 実際、一般的な経験則では、D(i) > 4/n は、影響力の強い点を外れ値として決定するための良いしきい値であり、このビジュアライザーは、そのしきい値を超えているデータの割合を報告できます。
この Cook の距離の実装では、普通最小二乗回帰を前提としており、したがってフード下に sklearn.linear_model.LinearRegression
が埋め込まれています。 したがって、このビジュアライザの結果は、統計モデルを使った同様の計算と似ていますが、それほど高度なものではありません。
See also
For the longer discussion on detecting outliers in regression and computingleverage and influence, linear regression in python, outliers/leveragedetect by Huiming Song を参照のこと。
パラメータ Xarray-like, 2D
外生デザイン行列、例えばトレーニングデータ
yarray-like, 1D
内生応答変数、例えばターゲットデータ
axmatplotlib Axes, default: None
図をプロットする軸を指定します。 Noneが渡された場合、現在の軸が使用されます(必要であれば生成されます)。
draw_thresholdbool, default: True
D(i) == 4/n で水平線を引き、最終回帰で最も影響力のある点を簡単に特定できるようにする。
linefmtstr, default: ‘C0-‘
幹グラフの垂直線のプロパティを定義する文字列、通常は色か色と線のスタイルになります。
markerfmt: str, default: ‘,’
ステムプロットのヘッドにあるマーカーのプロパティを定義する文字列です。 デフォルトは “pixel” で、例えば、基本的に stem plot の先頭にはマーカーヘッドはありません。
show: bool, default:
True の場合、show()
を呼び出し、次に plt.show()
を呼び出しますが、この署名から plt.savefig
や clear_figure
を呼び出すことはできません。 False の場合、単に finalize()
kwargsdict
ベースクラスに渡されるキーワード引数で、最終的な視覚化に影響するかもしれないもの (例えば、サイズやタイトルパラメーター)
を呼び出す。