Anscombe’s Quartet

Het is een interessante uitspraak en waarschijnlijk waar dat grafieken ruw zijn als het gaat om het tonen van exacte waarden voor elk individueel punt. Maar soms zijn het niet de individuele waarden die van belang zijn, maar eerder wat de hele dataset laat zien.Laten we dus eens kijken naar zijn dataset.

Zoals u kunt zien is deze verdeeld in vier groepen waarbij elke groep elf punten heeft met een x- en een y-waarde. Uit een blik op de verschillende groepen lijkt het alsof de laatste groep het gemakkelijkst te begrijpen is, maar het zou moeilijk zijn te zeggen hoe deze vier groepen van elkaar verschillen.

We zouden kunnen proberen de kenmerken van deze groepen te bekijken door naar hun statistische eigenschappen te kijken. Deze groepen hebben dezelfde of zeer vergelijkbare eigenschappen.

En dit is waar Anscombe echt in slaagde met zijn dataset, ondanks dat het vier verschillende groepen zijn hebben ze dezelfde eigenschappen en het is daarom moeilijk om ze alleen met behulp van statistiek te beschrijven.

Laten we eens kijken naar de visuele voorstelling en zien of we ze gemakkelijker kunnen beschrijven.

De eerste groep lijkt een lineair verband te hebben.

De tweede groep heeft ook een verband tussen x en y, maar het is niet lineair.

De derde groep heeft ook een lineair verband als de eerste groep, maar het is veel strakker met de uitbijter bovenaan als de vreemde eend in de bijt

De laatste groep ziet er heel anders uit dan de andere en het is de uitbijter die ervoor zorgt dat de statistische eigenschappen zich gedragen als de eerste.

In dit geval bewijzen we dat het bekijken van een tabel met gegevens minder waarde oplevert dan een visualisatie ervan. Maar ik ben het ermee eens dat er gevallen zijn waarin een weergave van gegevens waarschijnlijk gemakkelijker te begrijpen is dan een visualisatie, zoals een winst-verliestabel.

Dat was het voor deze keer en hopelijk weet u nu het antwoord op de vraag “waarom visualiseren?”.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.