L’istogramma e la scelta del numero dei bins (tratto da “Aspettando il lunedì”)

In un mio precedente post, avevo indicato in In[20], In[21] e In[22] la possibilità di ottenere tre istogrammi diversi a seconda della dimensione degli intervalli delle categorie ovvero il numero dei bins. Quale è il criterio per scegliere questo numero in maniera vantaggiosa?

Su questo tema, oggi condivido un articolo di grande interesse storico e che troverete sul blog “Aspettando il lunedì” su lucavescio.com.

istogramma_di_guerry

L’istogramma è uno strumento molto utilizzato nelle attività di “Data Analysis” poiché la rappresentazione visiva dei dati permette al nostro cervello di cogliere in modo rapido una quantità enorme di informazioni. Il primo istogramma della storia apparve nel 1833 nell’opera “Essai sur la statistique morale de la France“, pubblicato dall’avvocato e statistico André-Michel Guerry. L’istogramma […]

via Data Science Basics: L’istogramma — Aspettando il lunedì

In conclusione,  ci sono due regole empiriche per la scelta del numero di bins in base alla grandezza della distribuzione discreta univariata, ovvero al numero n di campioni. Io generalmente adotto la prima. Come numero di bins prendo l’arrotondamento della radice quadrata del numero di campioni. Nel mio articolo avevamo 10 valori e quindi il numero da scegliere era 3 ovvero quanto riportato in In[21].

Infine ricorda che gli istogrammi restituiscono informazioni significative quando i campioni sono sufficientemente grandi.

Alla prossima! 😉