To ciekawe stwierdzenie i prawdopodobnie prawdziwe, że wykresy są szorstkie, jeśli chodzi o pokazywanie dokładnych wartości dla każdego punktu z osobna. Ale czasami to nie poszczególne wartości są interesujące, ale raczej to, co pokazuje cały zbiór danych.
Jak widać, jest on podzielony na cztery grupy, gdzie każda grupa ma jedenaście punktów z wartością x i y. Po spojrzeniu na poszczególne grupy wydaje się, że ostatnia grupa jest najłatwiejsza do zrozumienia, ale trudno byłoby powiedzieć, czym te cztery grupy różnią się od siebie.
Możemy spróbować przyjrzeć się cechom tych grup, patrząc na ich właściwości statystyczne. Dla tych grup mają one takie same lub bardzo podobne właściwości.
I tu właśnie Anscombe odniósł prawdziwy sukces ze swoim zbiorem danych, pomimo tego, że są to cztery różne grupy mają one takie same właściwości i dlatego trudno jest je opisać tylko za pomocą statystyki.
Spójrzmy na wizualną reprezentację i zobaczmy czy możemy je łatwiej opisać.
Pierwsza grupa wydaje się mieć liniowy związek.
Druga grupa również ma związek między x i y,ale nie jest on liniowy.
Trzecia grupa również ma liniową zależność jak pierwsza grupa, ale jest ona znacznie ściślejsza, z odchyleniem na górze jako dziwnym
Nasza ostatnia grupa wygląda zupełnie inaczej niż nasze pozostałe i to właśnie odchylenie sprawia, że jej własności statystyczne zachowują się jak pierwsze.
W tym przypadku udowadniamy, że samo spojrzenie na tabelę z danymi daje mniejszą wartość niż ich wizualizacja. Ale mogę się zgodzić, że istnieją przypadki, w których reprezentacja danych jest prawdopodobnie łatwiejsza do zrozumienia niż wizualizacja, taka jak tabela strat zysków.
To wszystko na ten czas i mam nadzieję, że jeśli pojawi się pytanie „dlaczego wizualizować?”, teraz znasz odpowiedź.