Distribuzione normale nelle statistiche: definizione, esempio, interpretazione

Sommario

Cos'è la distribuzione normale nelle statistiche?

Cos'è la distribuzione normale nelle statistiche?

La distribuzione normale è una curva di distribuzione della frequenza a forma di campana che aiuta a descrivere tutti i possibili valori che una variabile casuale può assumere all'interno di un dato intervallo con la maggior parte dell'area di distribuzione nel mezzo e pochi nelle code, agli estremi. Questa distribuzione ha due parametri chiave: la media (µ) e la deviazione standard (σ) che gioca un ruolo chiave nel calcolo del rendimento delle attività e nella strategia di gestione del rischio.

Come interpretare la distribuzione normale

La figura sopra mostra che la distribuzione normale statistica è una curva a forma di campana. La gamma dei possibili risultati di questa distribuzione è costituita dai numeri reali interi compresi tra -∞ e + ∞. Le code della curva a campana si estendono su entrambi i lati del grafico (+/-) senza limiti.

Circa il 68% di tutte le osservazioni rientra in +/- una deviazione standard (σ)
Circa il 95% di tutte le osservazioni rientra in +/- due deviazioni standard (σ)
Circa il 99% di tutte le osservazioni rientra in +/- tre deviazioni standard (σ)

Ha un'asimmetria pari a zero (simmetria di una distribuzione). Se la distribuzione dei dati è asimmetrica, la distribuzione non è uniforme se il set di dati ha un'asimmetria maggiore di zero o un'asimmetria positiva. Quindi, la coda destra della distribuzione è più prolungata di quella sinistra e per un'asimmetria negativa (inferiore a zero) la coda sinistra sarà più lunga della coda destra.

Ha una curtosi di 3 (misura il picco di una distribuzione), che indica che la distribuzione non è né troppo appuntita né troppo sottile. Se la curtosi è maggiore di tre, la distribuzione è più alta con code più grasse e se la curtosi è minore di tre, allora ha code sottili e il punto di picco è inferiore alla distribuzione normale.

Caratteristiche

Rappresentano una famiglia di distribuzione in cui media e deviazione determinano la forma della distribuzione.
La media, la mediana e il modo di questa distribuzione sono tutti uguali.
La metà dei valori si trova a sinistra del centro e l'altra metà a destra.
Il valore totale sotto la curva standard sarà sempre uno.
Molto probabilmente, la distribuzione è al centro e meno valori si trovano all'estremità della coda.

Trasformazione (Z)

La funzione di densità di probabilità (PDF) di una variabile casuale (X) dopo la distribuzione è data da:

dove -∞ <x <∞; -∞ <µ 0

Dove,

F (x) = funzione di probabilità normale
x = Variabile casuale
µ = Media di distribuzione
σ = Deviazione standard della distribuzione
π = 3,14159
e = 2,71828

Formula di trasformazione

Dove,

X = Variabile casuale

Esempi di distribuzione normale nelle statistiche

Discutiamo i seguenti esempi.

Esempio 1

Supponiamo che un'azienda abbia 10.000 dipendenti e più strutture salariali in base al ruolo lavorativo in cui lavora il dipendente. Gli stipendi sono generalmente distribuiti con la media della popolazione di µ = $ 60.000 e la deviazione standard della popolazione σ = $ 15.000. Quale sarà la probabilità che un dipendente selezionato in modo casuale abbia uno stipendio inferiore a $ 45000 all'anno.

Soluzione

Come mostrato nella figura sopra, per rispondere a questa domanda, dobbiamo trovare l'area sotto la curva normale da 45 alla coda del lato sinistro. Inoltre, dobbiamo usare il valore della tabella Z per ottenere la risposta giusta.

In primo luogo, dobbiamo convertire la media e la deviazione standard date in una distribuzione normale standard con media (µ) = 0 e deviazione standard (σ) = 1 usando la formula di trasformazione.

Dopo la conversione, dobbiamo cercare la tabella Z per trovare il valore corrispondente, che ci darà la risposta corretta.

Dato,

Media (µ) = $ 60.000
Deviazione standard (σ) = $ 15000
Variabile casuale (x) = $ 45000

Trasformazione (z) = (45000 - 60000/15000)

Trasformazione (z) = -1

Ora il valore che è equivalente a -1 nella tabella Z è 0,1587, che rappresenta l'area sotto la curva da 45 a sinistra. Ha indicato che quando selezioniamo a caso un dipendente, la probabilità di guadagnare meno di $ 45000 all'anno è del 15,87%.

Esempio n. 2

Ora mantenendo lo stesso scenario di cui sopra, scopri la probabilità che un dipendente selezionato casualmente guadagni più di $ 80.000 all'anno utilizzando la distribuzione normale.

Soluzione

Quindi in questa domanda, dobbiamo scoprire l'area ombreggiata da 80 a coda destra usando la stessa formula.

Dato,

Media (µ) = $ 60.000
Deviazione standard (σ) = $ 15000
Variabile casuale (X) = $ 80.000

Trasformazione (z) = (80000-60000/15000)

Trasformazione (z) = 1,33

Secondo la tabella Z, il valore equivalente di 1,33 è 0,9082 o 90,82%, il che mostra che la probabilità di selezionare casualmente dipendenti che guadagnano meno di $ 80.000 all'anno è del 90,82%.

Ma come da domanda, dobbiamo determinare la probabilità che i dipendenti casuali guadagnino più di $ 80.000 all'anno, quindi dobbiamo sottrarre il valore da 100.

Variabile casuale (X) = 100% - 90,82%
Variabile casuale (X) = 9,18%

Quindi la probabilità che i dipendenti guadagnino più di $ 80.000 all'anno è del 9,18%.

Utilizza

Il grafico tecnico del mercato azionario è spesso una curva a campana, che consente ad analisti e investitori di fare inferenze statistiche sul rendimento atteso e sul rischio delle azioni.
Viene utilizzato nel mondo reale, come per determinare il tempo migliore più probabile impiegato dalle pizzerie per consegnare la pizza e molte altre applicazioni reali.
Utilizzato per confrontare le altezze di un dato insieme di popolazione in cui la maggior parte delle persone avrà una dimensione media con pochissime persone che hanno un'altezza superiore o inferiore alla media.
Sono utilizzati per determinare il rendimento scolastico medio degli studenti, il che aiuta a confrontare il grado degli studenti.

Conclusione

La distribuzione normale trova applicazioni nella scienza dei dati e nell'analisi dei dati. Le tecnologie avanzate come l'intelligenza artificiale e l'apprendimento automatico utilizzate insieme a questa distribuzione possono fornire una migliore qualità dei dati, che aiuterà gli individui e le aziende a prendere decisioni efficaci.