Statistica Flashcards
(56 cards)
Cos’è la statistica e come si suddivide?
è una disciplina che si occupa di studiare metodi finalizzati alla conoscenza quantitativa e qualitativa dei fenomeni collettivi mediante la raccolta, la sintesi l’analisi dei dati.
- descrittiva: presentazione, organizzazione e sintesi dei dati relativi ad una popolazione oggetto di studio (campione)
- inferenziale: generalizzazione dei risultati osservati sul campione all’intera popolazione utilizzando la teoria della probabilità
Definizione di popolazione, unità statistica e campione
- popolazione (target): insieme di individui o unità di interesse per la ricerca e che hanno delle caratteristiche osservabili comuni
- unità statistiche: ogni individuo o elemento della popolazione target
- campione: sottoinsieme della popolazione target che è rappresentativo dell’intera popolazione
Definizione variabile, parametro della popolazione, dato
- variabile: qualsiasi caratteristica che può differire tra le unità statistiche della popolazione e che può essere osservata (p.e. sesso, età)
- parametro della popolazione: caratteristica numerica relativa ad una variabile della popolazione (p.e., %di F o M, età media)
- dato: valore osservato di una variabile in un individuo del campione (p.e., i valori di sesso ed età di un pz dello studio sono dati)
Definizione variabile, parametro della popolazione, dato
- variabile: qualsiasi caratteristica che può differire tra le unità statistiche della popolazione e che può essere osservata (p.e. sesso, età)
- parametro della popolazione: caratteristica numerica relativa ad una variabile della popolazione (p.e., %di F o M, età media)
- dato: valore osservato di una variabile in un individuo del campione (p.e., i valori di sesso ed età di un pz dello studio sono dati)
Classificazione delle variabili
CATEGORICHE (QUALITATIVE)
- nominale: esprime una qualità con un aggettivo/sostantivo (non c’è un ordine intrinseco, solo estetico)
- ordinale: valori/categoriche hanno un ordine intrinseco (p.e., livello di soddisfazione basso, medio, alto)
- dicotomica: variabile nominale con sole due possibilità
N.B. le categoria devono essere mutualmente esclusive
N.B. nei database i valori delle var. categoriali sono spesso codificati da valori numerici -> bisogna considerare il significato dei numeri.
p.e., livello di soddisfazione 1=basso, 2=medio, 3=alto
anche se sono rappresentati “esteticamente” da numeri, rappresentano 3 categorie (basso, medio, alto) e sono quindi variabili categoriali e non numeriche!!!
NUMERICHE (QUANTITATIVE)
- discreta: la variabile assume un numero finito di valori numerici o rappresenta un conteggio (p.e., FC)
- continua: variabile può assumere un qualsiasi valore all’interno di un intervallo (p.e, pressione sistolica, età…)
N.B. una variabile numerica può essere trasformata in una variabile categorica dividendo l’intervallo dei suoi possibili valori in due o più sottointervalli (p.e., età < 30, tra 30-60 e >60)
VARIABILI CATEGORICHE
CATEGORICHE (QUALITATIVE)
- nominale: esprime una qualità con un aggettivo/sostantivo (non c’è un ordine intrinseco, solo estetico)
- ordinale: valori/categoriche hanno un ordine intrinseco (p.e., livello di soddisfazione basso, medio, alto)
- dicotomica: variabile nominale con sole due possibilità
N.B. le categoria devono essere mutualmente esclusive
N.B. nei database i valori delle var. categoriali sono spesso codificati da valori numerici -> bisogna considerare il significato dei numeri.
p.e., livello di soddisfazione 1=basso, 2=medio, 3=alto
anche se sono rappresentati “esteticamente” da numeri, rappresentano 3 categorie (basso, medio, alto) e sono quindi variabili categoriali e non numeriche!!!
VARIABILI NUMERICHE
NUMERICHE (QUANTITATIVE)
- discreta: la variabile assume un numero finito di valori numerici o rappresenta un conteggio (p.e., FC)
- continua: variabile può assumere un qualsiasi valore all’interno di un intervallo (p.e, pressione sistolica, età…)
N.B. una variabile numerica può essere trasformata in una variabile categorica dividendo l’intervallo dei suoi possibili valori in due o più sottointervalli (p.e., età < 30, tra 30-60 e >60)
DISTRIBUZIONE DI FREQUENZA
La distribuzione di frequenza di una variabile rappresenta quante volte un dato valore (o intervallo di valori) viene osservato nel campione
FREQUENZA RELATIVA: è più indicativa della frequenza assoluta perchè mette in relazione la frequenza con il totale
Fre. relativa=frequenza/n.totale di osservazioni
(il totale della frequenza relativa è 1, il totale della frequenza assoluta è il numero delle osservazioni)
N.B. soprattutto per le variabili numeriche, si possono raggruppare i dati in CLASSI DI INTERVALLO DISGIUNTE (un valore può essere assegnato solo ad una classe)
FREQUENZA RELATIVA
è più indicativa della frequenza assoluta perchè mette in relazione la frequenza con il totale
Fre. relativa=frequenza/n.totale di osservazioni
(il totale della frequenza relativa è 1, il totale della frequenza assoluta è il numero delle osservazioni)
N.B. soprattutto per le variabili numeriche, si possono raggruppare i dati in CLASSI DI INERVALLO DISGIUNTE (un valore può essere assegnato solo ad una classe)
RAPPRESENTAZIONE GRAFICA DELLE VARIABILI
VARIABILI CATEGORICHE
- Diagramma o grafico a barre
- Diagramma o grafico a torta
VARIABILI NUMERICHE
- istogramma (la distribuzione può essere simmetrica o asimmetrica con le code)
MISURE DI TENDENZA CENTRALE
Una misura (o indice) di tendenza centrale è un valore che rappresenta il centro della distribuzione, ossia un valore attorno al quale si concentrano più osservazioni.
- MEDIA: media aritmetica delle osservazioni = somma delle osservazioni divisa per il numero delle osservazioni
- MEDIANA: valore che occupa la posizione centrale tra le osservazioni ordinate
posizione centrale:
> n. pari = media dei valori che hanno la posizione attorno a n+1/2
> n. dispari= n+1/2 - MODA: valore con la maggiore frequenza. possono esserci più mode o 0 mode se tutti i valori hanno la stessa frequenza.
N.B. SE DISTRIBUZIONE SIMMETRICA: MEDIA E MEDIANA COINCIDONO
SE DISTR. ASIMMETRICA: MEDIA TENDE VERSO I VALORI DELLA CODA.
SE CODA A DESTRA MEDIA>MEDIANA
SE CODA A SINISTRA MEDIA
RELAZIONE TRA INDICI DI TENDENZA CENTRALE E VARIABILI
MEDIA: solo per var. numeriche (no nominale o ordinale)
MEDIANA: per var. numeriche e categoriche ordinali
MODA: per tutte
MEDIA E MEDIANA A SECONDA DELLA DISTRIBUZIONE SIMMETRICA-ASIMMETRICA
N.B. SE DISTRIBUZIONE SIMMETRICA: MEDIA E MEDIANA COINCIDONO
SE DISTR. ASIMMETRICA: MEDIA TENDE VERSO I VALORI DELLA CODA.
SE CODA A DESTRA MEDIA>MEDIANA
SE CODA A SINISTRA MEDIA
PERCENTILI E QUARTILI
sono indici di posizione.
PERCENTILI: il P-esimo percentile è il valore al di sotto del quale è compreso il P% delle osservazioni ordinate (p.e., 80esimo percentile=80% delle osservazioni è al di sotto delle osservazioni)
QUARTILI: data una sequenza ordinata di dati, i quartili dividono la sequenza in 4 parti uguali
Q1= valore al di sotto del quale è compreso 1/4 delle osservazioni (25esimo percentile)
Q2= valore al di sotto del quale è compreso 2/4 (1/2) delle osservazioni (50esimo percentile e mediana)
Q3= valore al di sotto del quale è compreso 3/4 delle osservazioni (75esimo percentile)
QUARTILI
QUARTILI: data una sequenza ordinata di dati, i quartili dividono la sequenza in 4 parti uguali
Q1= valore al di sotto del quale è compreso 1/4 delle osservazioni (25esimo percentile)
Q2= valore al di sotto del quale è compreso 2/4 (1/2) delle osservazioni (50esimo percentile e mediana)
Q3= valore al di sotto del quale è compreso 3/4 delle osservazioni (75esimo percentile)
PERCENTILI
PERCENTILI: il P-esimo percentile è il valore al di sotto del quale è compreso il P% delle osservazioni ordinate (p.e., 80esimo percentile=80% delle osservazioni è al di sotto delle osservazioni)
n. di osservazioni minori/n totale di osservazioni
BOXPLOT + DISTRIBUZIONI SIMMETRICHE/ASIMMETRICHE
Boxplot: visualizza min, max e quartili di una variabile
la scatola è costruita in modo che contenga ce il 50% delle osservazioi.
se si utilizza un software e si identificano degli outlier, gli estremi dei segmenti all’esterno della scatola non sono più min e max delle osservazioni.
la linea centrale del box=mediana (Q2)
distribuzione simmetrica: Q1 e Q3 sono circa alla stessa distanza dalla mediana e la scatola è centrata tra i due estremi
distribuzione asimmetrica: Q1 e Q3 hanno diversa distanza dalla mediana Q2 e la scatola non è centrata tra i due estremi.
se coda a dx: distanza tra Q3 e Q2 è maggiore della distanza tra Q1 e Q2 e scatola più vicina all’estremo inferiore
MISURE DI DISPERSIONE
Le misure di dispersione sono valori che rappresentano la variabilità dei valori di una variabile e sono:
- RANGE O CAMPO DI VARIAZIONE = max - min
- DIFFERENZA INTERQUANTILE = Q3-Q1
- VARIANZA (S2) E DS (S)
N.B.
range risente dell’asimmetria della distribuzione o della presenza di outlier perchè considera i valori estremi;
la differenza interquartile non risente n’ dell’eventuale forma asimmetrica della distribuzione nè della presenza degli outlier
S2 e DS risentono dell’asimmetria della distribuzione o della presenza di outlier perchè considerano tutte le osservazioni
VARIANZA E DEVIAZIONE STANDARD
VARIANZA: calcola lo scostamento dei singoli valori dalla media aritmetica
S^2= Sommatoria (Xi-media)^2/n-1
(Xi-media)^2=SCARTO= scostamento di una qualsiasi osservazione dalla media
DEVIAZIONE STANDARD: indica quanto, mediamente, ciascun elemento è lontano dal valore medio (è la media degli scostamenti) -> scarto quadratico medio
S=radice della varianza
N.B. S2 e DS risentono dell’asimmetria della distribuzione o della presenza di outlier perchè considerano tutte le osservazioni
COS’E’ LA TEORIA DELLA PROBABILITA’?
la teoria della probabilità è l’insieme dei metodi matematici che permette di studiare e descrivere i fenomeni aleatori (risultato non prevedibile con certezza) quantificando l’incertezza (probabilità) che si verifichi un determinato evento.
la teoria della probabilità di basa su tre concetti:
- esperimento: qualsiasi processo di osservazione o misurazione di un fenomeno aleatorio (esperimento=prova casuale)
- evento
- probabilità
L’ESPERIMENTO GENERA L’EVENTO CON UNA DETERMINATA PROBABILITA’
COS’E’ LO SPAZIO CAMPIONARIO
Lo spazio campionario S è l’insieme di tutti i possibili eventi
S= {E u Ē}
Ē = evento complementare = il contrario di un evento E
La P(S)=1
EVENTI ELEMENTARI, EVENTI COMPOSTI, EVENTI CERTI E EVENTI IMPOSSIBILI, EVENTI COMPLEMENTARI
EVENTI ELEMENTARI: singoli risultati di un esperimento
EVENTI COMPOSTI: insieme di più ev. elementari
EVENTI CERTI: si verifica sepre in quanto comprende tutti i possibili risultati (p.e., il bambino è M o F)
EVENTI IMPOSSIBILI: non può mai verificarsi
EVENTO COMPLEMENTARE: Contrario di un evento E
N.B. GLI EVENTI ELEMENTARI SONO, PER DEFINIZIONE, INCOMPATIBILI
N.B. UN EVENTO E IL SUO COMPLEMENTARE SONO, PER DEFINIZIONE, INCOMPATIBILI
EVENTI ELEMENTARI
EVENTI ELEMENTARI: singoli risultati di un esperimento
N.B. UN EVENTO E IL SUO COMPLEMENTARE SONO, PER DEFINIZIONE, INCOMPATIBILI
EVENTI COMPOSTI
EVENTI COMPOSTI: insieme di più ev. elementari