DEFINIZIONI

La statistica sta entrando sempre di più nella nostra vita quotidiana. Siamo bombardati da dati statistici da tutte le parti e su tutti gli argomenti. Dalla politica all'istruzione, dal sesso alla salute e così via. Risulta perciò pressoché obbligatorio imparare a interpretare questa enorme mole di dati che ci viene propinata e soprattutto imparare a capire la validità di tante dichiarazioni che fanno seguito all'interpretazione dei dati. Come può essere possibile che alle elezioni tutti si dichiarino vincitori?

Cominciamo a porre qualche definizione.

DEFINIZIONE

Diciamo indagine statistica l'operazione che consiste nell'ottenere informazioni qualitative o quantitative da un insieme di oggetti qualsiasi, in modo da potere poi assegnare dei valori numerici che in qualche modo sono rappresentativi dell'intero insieme.

Possiamo dire per esempio che informarsi sull'età, l'altezza, il peso, ... di un insieme di persone o animali, per potere poi associare un valore rappresentativo di età, altezza, peso, ... all'intero insieme è un esempio di indagine statistica.

DEFINIZIONE

Un insieme di oggetti qualsiasi sul quale si vogliono effettuare misurazioni di tipo statistico si chiama popolazione statistica. Le indagini statistiche effettuate su tutti gli elementi della popolazione si chiamano censimenti della popolazione.

Il censimento della popolazione italiana che si effettua in genere ogni 10 anni (l'ultimo è stato svolto nel 2001), è un esempio di censimento appunto. In tale indagine sono stati interrogati, o comunque si è tentato di interrogare, tutti i cittadini italiani su una serie di dati (età, titolo di studio, composizione delle famiglie, abitazioni, ...).

 Per vari motivi non è sempre possibile effettuare censimenti. Effettuare censimenti su popolazioni numerose comporta spesso il fatto di essere in possesso di risorse economiche e di tempo non sempre disponibili. Se per esempio una ditta che produce computer volesse sapere quali sono i gusti della popolazione per progettare una nuova linea di prodotti, non si potrebbe permettere di spendere soldi e tempo per interrogare tutta la popolazione. Anche perché la ditta rischierebbe di ricevere i risultati finali quando ormai non le servono più, nel senso che i gusti della popolazione nel frattempo potrebbero essere cambiati.

Ma vi sono anche altri motivi. Per esempio per stabilire la bontà di un prodotto alimentare non si possono assaggiare tutti i prodotti, perché non sarebbero più commercializzabili. Lo stesso accade per stabilire la durata di una lampadina o il funzionamento di un fiammifero. In questi casi quindi si deve fare un'indagine considerando solo alcuni oggetti della popolazione, scelti in modo casuale.

DEFINIZIONE

Dato un insieme sul quale si vuole effettuare una indagine statistica, chiamiamo suo campione statistico il sottoinsieme sul quale effettivamente si opera.

 

Di un campione statistico non importa soltanto la cardinalità ma anche e soprattutto la costituzione.

Se un pasticciere vuole sapere se gli conviene aprire un locale in un certo quartiere, per ricevere informazioni non può intervistare solo bambini, perché è probabile che riceverebbe delle informazioni così entusiastiche relative ai pasticcini e ai gelati che intraprenderebbe immediatamente l’attività; viceversa se intervistasse solo persone che soffrono di diabete, le informazioni ottenute lo farebbero desistere dall'idea di aprire il negozio.

Il pasticciere deve quindi stabilire innanzitutto quali caratteristiche sono importanti da sondare per avere informazioni utili. Per esempio sarà importante stabilire le fasce di età dei potenziali clienti, dato che intervistare più bambini fornirà sicuramente dati significativi; cosa che non succederà stabilendo se una data persona parla o no correntemente l’inglese, dato che questo fatto non influisce certo sui gusti alimentari.

Il passo successivo da compiere per effettuare un’indagine statistica è quello di determinare la composizione del campione rappresentativo dell’universo che si sta esaminando.

Sempre con riferimento al nostro esempio, supponiamo che il pasticciere abbia stabilito che le caratteristiche importanti sono: il sesso, l'età e il reddito. A questo punto riesce a determinare che la popolazione interessata è formata dal 55% di donne e dal 45% di uomini; dal 20% di persone con meno di 10 anni, dal 30% da 10 a 30 anni e dal 50% con più di 30 anni; dal 15% di persone con un reddito familiare superiore a 50 000 euro lordi l’anno, dal 40% con reddito fra 20 000 e 50 000 e dal 45% con reddito inferiore a 20 000 euro. Il pasticciere dovrà quindi scegliere un campione in cui le percentuali relative alle caratteristiche determinate, non si discostino di molto da quelle dette. Diversamente rischia di ottenere informazioni poco utili per i suoi interessi.

Sottolineiamo il fatto che le informazioni ottenute dal pasticciere, anche se provenenti dall'intera popolazione, non avranno mai la certezza matematica. Potrebbe capitare infatti che una persona che ha dichiarato di comprare almeno un chilo di dolci a settimana, si ammali improvvisamente, venga a perdere il lavoro, si metta a dieta, o più semplicemente non abbia detto la verità per burla o per motivi personali.

Da quanto detto finora appare chiaro che la statistica, così come il calcolo delle probabilità, non deve intendersi come una disciplina matematica nel senso stretto, giacché essa fornisce solo misure di rischi, non dà certezze, come del resto è naturale che accada quando si ha a che fare con indagini che si riferiscono alla vita reale.

Stabilito come scegliere il campione statistico e come deve essere condotta l’indagine, si passa all’analisi dei dati. Come fa il pasticciere a capire se vale la pena di aprire il suo negozio oppure no? Ha bisogno di stabilire un modo per misurare quantitativamente le informazioni ottenute. Dobbiamo quindi cominciare a trattare la rappresentazione e l’interpretazione numerica dei dati.

Cominciamo con l’osservare che un campione statistico, in quanto insieme, è privo di elementi ripetuti.

Se interroghiamo 100 persone su una questione in cui le risposte possibili sono Sì, No e NON SO, suddividiamo le 100 persone in tre sottoinsiemi, ognuno dei quali ha una cardinalità che varia da un minimo di zero a un massimo di 100.

 

DEFINIZIONE

Diciamo modalità di un certo fenomeno che deve essere indagato statisticamente l’insieme dei valori qualitativi e quantitativi su cui indagare, scelti tra quelli che il fenomeno può assumere.

 

Se si vuole indagare sul numero di nati in Italia nello scorso anno, si potrebbe scegliere di valutare il numero dei nati vivi e dei nati morti, oppure quello dei nati maschi e dei nati femmine, o ancora quello dei nati nelle isole, al sud, al centro e al nord, o tutti i precedenti insiemi, o ancora altre modalità.

 

DEFINIZIONE

Dato un fenomeno indagato statisticamente, diciamo frequenza assoluta di una sua modalità il numero di volte in cui la modalità stessa si è presentata.

 

Se alla domanda "Quale musica preferisce?", su 93 persone 35 hanno detto rock, 41 rap, 13 classica e 4 non hanno risposto, diciamo che la frequenza di coloro che, nel dato campione, prediligono il rock è 35.

Naturalmente il numero 35 non dice molto; se invece consideriamo il rapporto del detto valore rispetto al totale degli intervistati, cioè 35/93 » 0,38, l'informazione è più precisa. Infatti esso ci dà la frequenza della risposta positiva relativamente al rock, rispetto al totale delle modalità; tale valore espresso in percentuale ci dice che circa il 38% degli intervistati predilige il rock. È perciò un valore più significativo del valore assoluto 35, che non essendo rapportato al totale non ci permette di rispondere alla domanda: sono pochi o molti coloro che, fra gli intervistati, prediligono il rock?

 

DEFINIZIONE

Dato un fenomeno indagato statisticamente diciamo frequenza relativa di una sua modalità il rapporto fra la frequenza assoluta della modalità e la cardinalità dell’insieme delle modalità.

 

Con riferimento all’esempio precedente, calcoliamo le seguenti frequenze relative:

35/93; 41/93; 13/93; 4/93

Esse divengono ancora più significative se consideriamo i relativi valori percentuali approssimati:

38%, 44%, 14% e 4%

la cui somma deve essere pari al 100%, anche se a volte tale somma non appare esattamente 100%,  per approssimazioni intervenute nei calcoli. É chiaro comunque che l’indagine deve essere ritenuta attendibile se le differenze sono di lieve entità.

Adesso possiamo associare ciascuna modalità alla relativa frequenza assoluta.

 

DEFINIZIONE 

Dato un fenomeno indagato statisticamente, diciamo sua distribuzione statistica, l’insieme delle coppie i cui elementi sono le modalità e le rispettive frequenze assolute.

 

Ancora con riferimento all’esempio della musica, possiamo dire che la distribuzione statistica associata al fenomeno in essa descritto è l’insieme

{(rock, 35), (rap, 41), (classica, 13), (non risponde, 4)}.


Home

Definizioni

Rappresentazioni grafiche

Indici centrali

Dispersione

Attività di esercitazione e verifica