Cos'è la distribuzione normale nelle statistiche?
La distribuzione normale è una curva di distribuzione della frequenza a forma di campana che aiuta a descrivere tutti i possibili valori che una variabile casuale può assumere all'interno di un dato intervallo con la maggior parte dell'area di distribuzione nel mezzo e pochi nelle code, agli estremi. Questa distribuzione ha due parametri chiave: la media (µ) e la deviazione standard (σ) che gioca un ruolo chiave nel calcolo del rendimento delle attività e nella strategia di gestione del rischio.
Come interpretare la distribuzione normale

La figura sopra mostra che la distribuzione normale statistica è una curva a forma di campana. La gamma dei possibili risultati di questa distribuzione è costituita dai numeri reali interi compresi tra -∞ e + ∞. Le code della curva a campana si estendono su entrambi i lati del grafico (+/-) senza limiti.
- Circa il 68% di tutte le osservazioni rientra in +/- una deviazione standard (σ)
- Circa il 95% di tutte le osservazioni rientra in +/- due deviazioni standard (σ)
- Circa il 99% di tutte le osservazioni rientra in +/- tre deviazioni standard (σ)
Ha un'asimmetria pari a zero (simmetria di una distribuzione). Se la distribuzione dei dati è asimmetrica, la distribuzione non è uniforme se il set di dati ha un'asimmetria maggiore di zero o un'asimmetria positiva. Quindi, la coda destra della distribuzione è più prolungata di quella sinistra e per un'asimmetria negativa (inferiore a zero) la coda sinistra sarà più lunga della coda destra.
Ha una curtosi di 3 (misura il picco di una distribuzione), che indica che la distribuzione non è né troppo appuntita né troppo sottile. Se la curtosi è maggiore di tre, la distribuzione è più alta con code più grasse e se la curtosi è minore di tre, allora ha code sottili e il punto di picco è inferiore alla distribuzione normale.
Caratteristiche
- Rappresentano una famiglia di distribuzione in cui media e deviazione determinano la forma della distribuzione.
- La media, la mediana e il modo di questa distribuzione sono tutti uguali.
- La metà dei valori si trova a sinistra del centro e l'altra metà a destra.
- Il valore totale sotto la curva standard sarà sempre uno.
- Molto probabilmente, la distribuzione è al centro e meno valori si trovano all'estremità della coda.

Trasformazione (Z)
La funzione di densità di probabilità (PDF) di una variabile casuale (X) dopo la distribuzione è data da:

dove -∞ <x <∞; -∞ <µ 0
Dove,
- F (x) = funzione di probabilità normale
- x = Variabile casuale
- µ = Media di distribuzione
- σ = Deviazione standard della distribuzione
- π = 3,14159
- e = 2,71828
Formula di trasformazione

Dove,
- X = Variabile casuale
Esempi di distribuzione normale nelle statistiche
Discutiamo i seguenti esempi.
Esempio 1
Supponiamo che un'azienda abbia 10.000 dipendenti e più strutture salariali in base al ruolo lavorativo in cui lavora il dipendente. Gli stipendi sono generalmente distribuiti con la media della popolazione di µ = $ 60.000 e la deviazione standard della popolazione σ = $ 15.000. Quale sarà la probabilità che un dipendente selezionato in modo casuale abbia uno stipendio inferiore a $ 45000 all'anno.

Soluzione
Come mostrato nella figura sopra, per rispondere a questa domanda, dobbiamo trovare l'area sotto la curva normale da 45 alla coda del lato sinistro. Inoltre, dobbiamo usare il valore della tabella Z per ottenere la risposta giusta.
In primo luogo, dobbiamo convertire la media e la deviazione standard date in una distribuzione normale standard con media (µ) = 0 e deviazione standard (σ) = 1 usando la formula di trasformazione.
Dopo la conversione, dobbiamo cercare la tabella Z per trovare il valore corrispondente, che ci darà la risposta corretta.
Dato,
- Media (µ) = $ 60.000
- Deviazione standard (σ) = $ 15000
- Variabile casuale (x) = $ 45000
Trasformazione (z) = (45000 - 60000/15000)
Trasformazione (z) = -1
Ora il valore che è equivalente a -1 nella tabella Z è 0,1587, che rappresenta l'area sotto la curva da 45 a sinistra. Ha indicato che quando selezioniamo a caso un dipendente, la probabilità di guadagnare meno di $ 45000 all'anno è del 15,87%.
Esempio n. 2
Ora mantenendo lo stesso scenario di cui sopra, scopri la probabilità che un dipendente selezionato casualmente guadagni più di $ 80.000 all'anno utilizzando la distribuzione normale.

Soluzione
Quindi in questa domanda, dobbiamo scoprire l'area ombreggiata da 80 a coda destra usando la stessa formula.
Dato,
- Media (µ) = $ 60.000
- Deviazione standard (σ) = $ 15000
- Variabile casuale (X) = $ 80.000
Trasformazione (z) = (80000-60000/15000)
Trasformazione (z) = 1,33
Secondo la tabella Z, il valore equivalente di 1,33 è 0,9082 o 90,82%, il che mostra che la probabilità di selezionare casualmente dipendenti che guadagnano meno di $ 80.000 all'anno è del 90,82%.
Ma come da domanda, dobbiamo determinare la probabilità che i dipendenti casuali guadagnino più di $ 80.000 all'anno, quindi dobbiamo sottrarre il valore da 100.
- Variabile casuale (X) = 100% - 90,82%
- Variabile casuale (X) = 9,18%
Quindi la probabilità che i dipendenti guadagnino più di $ 80.000 all'anno è del 9,18%.
Utilizza
- Il grafico tecnico del mercato azionario è spesso una curva a campana, che consente ad analisti e investitori di fare inferenze statistiche sul rendimento atteso e sul rischio delle azioni.
- Viene utilizzato nel mondo reale, come per determinare il tempo migliore più probabile impiegato dalle pizzerie per consegnare la pizza e molte altre applicazioni reali.
- Utilizzato per confrontare le altezze di un dato insieme di popolazione in cui la maggior parte delle persone avrà una dimensione media con pochissime persone che hanno un'altezza superiore o inferiore alla media.
- Sono utilizzati per determinare il rendimento scolastico medio degli studenti, il che aiuta a confrontare il grado degli studenti.
Conclusione
La distribuzione normale trova applicazioni nella scienza dei dati e nell'analisi dei dati. Le tecnologie avanzate come l'intelligenza artificiale e l'apprendimento automatico utilizzate insieme a questa distribuzione possono fornire una migliore qualità dei dati, che aiuterà gli individui e le aziende a prendere decisioni efficaci.