Anscomben kvartetti

Mielenkiintoinen toteamus ja luultavasti totta, että kuvaajat ovat karkeita, kun on kyse kunkin yksittäisen pisteen tarkan arvon näyttämisestä. Mutta joskus yksittäiset arvot eivät ole kiinnostavia, vaan pikemminkin se, mitä koko tietokokonaisuus näyttää.

Kuten näet, se on jaettu neljään ryhmään, joissa jokaisessa ryhmässä on yksitoista pistettä, joilla on x- ja y-arvo. Vilkaisemalla eri ryhmiä näyttää siltä, että viimeinen ryhmä on helpoin ymmärtää, mutta olisi vaikea sanoa, miten nämä neljä ryhmää eroavat toisistaan.

Voisimme yrittää tarkastella näiden ryhmien ominaisuuksia tarkastelemalla niiden tilastollisia ominaisuuksia. Näillä ryhmillä on samat tai hyvin samankaltaiset ominaisuudet.

Ja tässä Anscombe todella onnistui aineistollaan, vaikka ne ovat neljä erilaista ryhmää, niillä on samat ominaisuudet ja siksi niitä on vaikea kuvata pelkästään tilastojen avulla.

Katsotaanpa visuaalista esitystä ja katsotaan pystymmekö kuvaamaan niitä helpommin.

Ensimmäisellä ryhmällä näyttää olevan lineaarinen suhde.

Kakkosryhmällä on myös suhde x:n ja y:n välillä,mutta se ei ole lineaarinen.

Kolmannella ryhmällä on myös lineaarinen suhde kuten ensimmäiselläryhmällä,mutta se on paljon tiukempi ja ylhäällä oleva outlier on se outer

Viimeinen ryhmämme näyttää hyvin erilaiselta kuin muut ryhmämme ja juuri outlierin takia sen tilastolliset ominaisuudet käyttäytyvät kuten ensimmäisten ryhmien.

Tässä tapauksessa todistamme, että pelkkä datan taulukon tarkastelu antaa vähemmän arvoa kuin sen visualisointi. Mutta voin olla samaa mieltä siitä, että on tapauksia, joissa datan esitys on luultavasti helpompi ymmärtää kuin visualisointi, kuten esimerkiksi voittotappiotaulukko.

Niin kaikki tällä kertaa ja toivottavasti jos sinulle tulee kysymys ”miksi visualisoida?”, tiedät nyt vastauksen.

Vastaa

Sähköpostiosoitettasi ei julkaista.