È un’affermazione interessante e probabilmente vera che i grafici sono approssimativi quando si tratta di mostrare il valore esatto per ogni singolo punto. Ma a volte non sono i singoli valori che sono interessanti, ma piuttosto ciò che l’intero set di dati mostra.
Come potete vedere è diviso in quattro gruppi dove ogni gruppo ha undici punti con una x e un valore y. Da uno sguardo ai diversi gruppi sembra che l’ultimo gruppo sia il più facile da capire, ma sarebbe difficile dire come questi quattro gruppi differiscono l’uno dall’altro.
Potremmo provare a guardare le caratteristiche di questi gruppi guardando le loro proprietà statistiche. Per questi gruppi hanno le stesse proprietà o proprietà molto simili.
E qui è dove Anscombe è davvero riuscito con il suo dataset, nonostante siano quattro gruppi diversi hanno le stesse proprietà ed è quindi difficile descriverli solo usando la statistica.
Diamo un’occhiata alla rappresentazione visiva e vediamo se possiamo descriverli più facilmente.
Il primo gruppo sembra avere una relazione lineare.
Anche il secondo gruppo ha una relazione tra x e y, ma non è lineare.
Anche il terzo gruppo ha una relazione lineare come il primo gruppo, ma è molto più stretta e l’outlier in alto è quello strano
Il nostro ultimo gruppo sembra molto diverso dagli altri ed è l’outlier che gli fa avere proprietà statistiche simili ai primi.
In questo caso dimostriamo che guardare solo una tabella di dati dà meno valore che farne una visualizzazione. Ma sono d’accordo che ci sono casi in cui una rappresentazione dei dati è probabilmente più facile da capire di una visualizzazione, come una tabella delle perdite di profitto.
Questo è tutto per questa volta e speriamo che se vi viene posta la domanda “perché visualizzare?”, ora conoscete la risposta.