Anscombovo kvarteto

Je to zajímavé tvrzení a pravděpodobně je pravda, že grafy jsou hrubé, pokud jde o zobrazení přesné hodnoty pro každý jednotlivý bod. Někdy však nejsou zajímavé jednotlivé hodnoty, ale spíše to, co ukazuje celá datová sada. pojďme se tedy podívat na jeho datovou sadu.

Jak vidíte, je rozdělena do čtyř skupin, kde každá skupina má jedenáct bodů s hodnotou x a hodnotou y. Z letmého pohledu na jednotlivé skupiny se zdá, že poslední skupina je nejsnáze pochopitelná, ale těžko by se dalo říci, jak se tyto čtyři skupiny od sebe liší.

Mohli bychom se pokusit podívat na vlastnosti těchto skupin tak, že se podíváme na jejich statistické vlastnosti. Pro tyto skupiny platí, že mají stejné nebo velmi podobné vlastnosti.

A právě zde Anscombe se svým souborem dat skutečně uspěl, přestože se jedná o čtyři různé skupiny, mají stejné vlastnosti, a proto je těžké je popsat jen pomocí statistiky.

Podívejme se na vizuální znázornění a uvidíme, zda je dokážeme snáze popsat.

První skupina má zřejmě lineární vztah.

Druhá skupina má také vztah mezi x a y,ale není lineární.

Třetí skupina má také lineární vztah jako prvnískupina, ale je mnohem těsnější, přičemž odlehlý bod nahoře je ten lichý

Naše poslední skupina vypadá velmi odlišně od našich ostatních a právě odlehlý bod způsobuje, že se její statistické vlastnosti chovají jako ty první.

V tomto případě skutečně dokazujeme, že pouhý pohled na tabulku dat dává menší vypovídací hodnotu než provedení jejich vizualizace. Ale mohu souhlasit s tím, že jsou případy, kdy je zobrazení dat pravděpodobně srozumitelnější než vizualizace, například tabulka ztrát ze zisku.

To je pro tentokrát vše a doufám, že pokud dostanete otázku „proč vizualizovat?“, znáte nyní odpověď.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.