Skip to content

TAB 2 – 15 febbraio

Sempre con R e con i dati dei bambini (# funzioni di riferimento):

  • Creare un istogramma con classi predeterminate e non omogenee. # hist()
  • Sovrapporre all’istogramma la curva di Gauss teorica calcolata usando la media e la mediana dei dati. # mean(),sd(),median(),summary(),dnorm(),curve()
  • Determinare la proporzione di bambini che pesano meno di 27 kg e quella dei bambini che pesano più di 34 kg. # pnorm(),qnorm()
  • Calcolare a piacimento percentili della curva. # quantile()
  • Calcolare la mediana per classi, la media ponderata per classi e lo scarto quadratico per classi usando una tabella delle frequenze (pacchetto agricolae docet). # Qui si calcola a mano con i dati della tabella. imparate ad usare le [,]
  • Tracciare un grafico x,y dei due gruppi di bambini, come se fossero dati appaiati (fate finta che ogni riga sia una coppia di gemelli). # plot()
  • Tracciare la retta di regressione. # lm(),abline()
  • Tracciare un plot dei residui per verificare se la qualità della regressione (Tukey Ambscombe) # fitted(),resid()
  • Generare un terzo gruppo di pesi di bambini usando una media sostanzialmente più elevata # rnorm(),seed()
  • Provare a fare un istogramma sovrapposto con il gruppo3 e il gruppo 1, colorandolo (vedete l’esempio svolto dai TAB 3 ad inizio anno)

E il vostro progetto? A che punto è? abbiamo ancora un incontro a marzo e poi l’esame orale…

TAB 2 – 2 febbraio

Introduzione a R e RStudio

Ripreso l’argomento della regressione in Gnumeric; introdotto il plot dei residui (Tukey Amscombe). Trattata la osservazione critica del suddetto plot per la verifica dell’omoschedasticità e per la presenza di outlier che possono anche essere evidenziati col boxplot.

Materiali: introR

Trattati vari argomenti di base quali l’importazione dei dati da .csv, l’elaborazioni delle statistiche di base, la creazione di grafici semplici:

bamb <- read.csv("H:/R2016/tab2/2feb17/intror/bamb.csv")
View(bamb)
summary(bamb)
boxplot(bamb)

L’uso delle colonne, il calcolo di media mediana e deviazione standard; la creazione di un istogramma. L’uso della funzione quantile() per il calcolo di quartili e percentili. L’uso delle variabili. L’uso della funzione seq() per generare una sequenza regolare di valori.

mean(bamb$gruppo1)
median(bamb$gruppo1)
sd(bamb$gruppo1)
hist(bamb$gruppo1)
lista.q<-seq(0.05,0.95,by=0.05)
quantile(bamb$gruppo1,lista.q)

Trattata poi la tecnica che permette di cerare istogrammi con una lista di breaks predeterminata (e quindi decidendo la distribuzione delle classi). Memorizzando il risultato in una variabile si può ottenere con la libreria agricolae una tabella delle frequenze.

lista.b<-seq(23.95,38,by=2)
dati.hist<-hist(bamb$gruppo1,breaks=lista.b,main="Istogramma peso dei bambini", xlab="kg", ylab="Densità peso", freq=FALSE)
library("agricolae", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3")
tabella<-table.freq(dati.hist)
View(tabella)
ogive.freq(dati.hist)
pie(dati.hist$counts)
pie(dati.hist$counts,label=dati.hist$mids)

Ultimo snippet, con il calcolo della media ponderata e dello scarto ponderato

tabella$multip<-tabella$Main*tabella$Frequency
m.pond<-sum(tabella$multip)/sum(tabella$Frequency)
tabella$scarqf<-(tabella$Main-m.pond)^2*tabella$Frequency
sd.pond<-sqrt(sum(tabella$scarqf)/sum(tabella$Frequency))
sd.pond

Per la regressione con R, anche se ne abbiamo già parlato oggi, rimando al prossimo incontro (per altro finale) in cui approfondiremo questi due aspetti.

TAB 3 – 24 gennaio 17

Chiaramente priorità ai lavori di diploma.

Inoltre studio personale sui FS1-6, in particolare il FS4 (lasciate perdere la terza parte sul Jackknife)

Per chi si annoiasse ecco un paio di stimoli dal FACOLTATIVO FS7: fs7

Dati FS 7: fs7

Letteratura:

stabilita1 tre articoli più significativi

stabilita2 altri

TAB 3 – Indicazioni per lo studio

Qui di seguito un elenco (forse non completo) dei concetti teorici e delle tecniche statistiche che dovrebbero essere padroneggiate per affrontare correttamente l’esame orale. Si osservi che NON sarà necessario conoscere a memoria le formule di calcolo e che le domande saranno sostanzialmente di ordine interpretativo. In linea di principio aver svolto i FS personalmente avendo parallelamente approfondito con le necessarie letture gli aspetti teorici dovrebbe essere considerata una preparazione adeguata.

Chiaramente qualora nel lavoro di diploma ci fossero tecniche aggiuntive a quelle elencate, il candidato è chiamato a conoscerle bene.

Contenuti di SM2

  • Creazione delle tabelle di frequenza
  • Statistica descrittiva. Tutto il fascicolo del secondo anno. Costruzione ed utilizzo dei vari tipi di grafici (istogramma, ogiva, poligono delle frequeze, aerogramma, boxplot)
  • Indici di posizione centrale (media, mediana, moda) e relativo uso.
  • Indici di dispersione (scarto IQ, scarto quadratico) e relativo uso.
  • Calcolo degli indici tramite tabella delle frequenze.
  • Concetto di mediana esteso ai percentili. I percentili come lettura dell’ogiva. I percentili come calcolo assoluto.
  • La curva di Gauss. L’uso della variabile standard z e degli integrali tabellati. L’uso della variabile z per il confronto tra grandezze diverse
  • La regressione e la correlazione: la scelta della variabile indipendente. La questione della legittimità della regressione nella stima.

Contenuti di SM3

  • Popolazione, campione e media campionaria. Il candidato deve avere in chiaro le relazioni che intercorrono tra questi elementi e deve conoscere la questione dello scarto campionario (corretto) e la normalità delle medie campionarie (teorema del limite centrale, a livello empirico).
  • L’utilizzo della distribuzione campionaria ipotetica per lo svolgimento dei test Z (scarto q. della popolazione noto) e T (scarto q. stimato con lo scarto campionario) su un solo campione.
  • La formulazione di ipotesi nulle. I valori critici, gli intervalli di confidenza e le soglie di probabilità che definiscono la significatività delle differenze registrate. Il ruolo della dimensione del campione.
  • Test T  e di Wilcoxon per due campioni appaiati.
  • Test T e U per campioni non appaiati.
  • Requisiti fondamentali per lo svolgimento di un test T (normalità, omoschedasticità) e i relativi test per verificare le condizioni: Levene, F, lettura dei Q-Q plot per la normalità.
  • Conoscere l’ANOVA quale soluzione per valutare più di due campioni in simultanea; Anova a una via (campioni non appaiati) o a due vie (appaiati).
  • Uso dell’ANOVA per la significatività delle regressioni. Saper interpretare i risultati di una regressione (significatività).
  • Conoscere in grandi linee gli equivalenti test non parametrici alternativi all’ANOVA: Kruskal-Wallis (1 via, dati non appaiati), Friedman e Quade (2 vie, dati appaiati).
  • Conoscere almeno a livello superficiale il significato di un test posthoc per analizzare una significatività evidenziata dall’ANOVA. Ad esempio l’uso del TukeyHSD.
  • MethComp. Conoscere e saper interpretare i risultati delle regressioni di PB e Deming. Saper interpretare correttamente i plot di BA.
  • Saper trovare gli outlier in un insieme di dati usando i boxplot di Tukey, sia su dati monovariati sia sui residui di una regressione.
  • Selezionare i metodi correti di test statistico in base alla presenza e/o assenza di outlier.
  • Conoscere le differenze fondamentali tra test parametrici e test non parametrici
  • Uso della Kappa di Coen. Calcolo di specificità sensibilità e valori predittivi. Gli intervalli di confidenza e la dimensione dei campioni in questo tipo di calcolo.
  • La correlazione non parametrica di Spearman in opposizione alla correlazione di Pearson.

 

 

TAB 2 – Regressione e correlazione

Materiale: correlazione e regressione

Appunti della lezione: regressione_correlazione_19gen17

File gnumeric: cov_reg_19gen17

Al di lÀ dei dettagli di calcolo si faccia molta attenzione alla questione della scelta della variabile indipendente e al fatto che la regressione spesso è usata in modo improprio e che solitamente ci deve essere una sottostante ragione disciplinare che faccia da base concettuale fondante per l’indagine statistica.

TAB – 3 Friedman vs Quade

A tutti coloro che intendono applicare il test di Friedman nel proprio lavoro di tesi, consiglio di calcolare in parallelo anche il test di Quade (Cap. 15, pag 85 e segg.) in quanto più potente (anche se purtroppo un po’ meno noto), soprattutto se si hanno pochi campioni (e quindi poche colonne). Funzione quade.test() sulla stessa matrice del Friedman. Posthoc in caso di ipotesi nulla confutata anche disponibile nel pacchetto PMCMR posthoc.quade.test() !

TAB 3 – 10 / 12 gennaio 2017

Fallstdium 5

FS 5: fallstudium5-ng

Dati FS 5: fs5_data

Riassunto sulla Kappa di Coen

Per lo svolgimento con Excel vi allego qui il file di esempio con la proceduta già svolta con lo strumento delle tabelle di pivot: kappa_12gen17

Codice per R

#Caricamento dati e librerie
drugcheck <- read.delim("~/Scuola/SSMT/TAB-TRM/R2016/tab3/12gen17/fs5_data/drugcheck.txt")
View(drugcheck)
library("bdpv", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3")
library("psy", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3")
library("boot", lib.loc="/usr/lib/R/library")
library("vcd", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3")

# Kappa su una tabella dei dati seriali

lkappa(drugcheck)

#Creazione di una tabella a doppia entrata

tabella<-xtabs(~Drug_Control+DrugCheck,data=drugcheck)
tabella

#Estrazione di una sottotabella per i dati delle benzodiazepine

bzd.t<-grep("BZD",drugcheck$Drug_Control)
bzd.df<-data.frame(drugcheck[bzd.t,])
bzd.tab<-xtabs(~Drug_Control+DrugCheck,data=bzd.df,drop.unused.level=TRUE)

#Trasposizione della matrice per avere il gold standard sulle colonne

bzd.tabt<-t(bzd.tab) bzd.tabt #Kappa su una tabella a doppia entrata e c.i. con il pacchetto vcd Kappa(bzd.tabt) confint(bzd.kappa) 

Calcolo di kappa su tabelle nxn con intervalli di confidenza determinati con il metodo di  ricampionamento offerto dal pacchetto bootstrap. In questo caso, siccome sarebbe inaccessibilmente complesso calcolare i c.i. per la kappa si generano 1000 campioni di dimensione uguale al campione di riferimento pescando casualmente tra i dati del campione effettivo. Si calcolano poi le 1000 kappa e i c.i. al 5% sono dati dai rispettivi quantili (2.5%-> 25esimo dato, 97.5% -> 975esimo dato). Il calcolo è svolto sul dataset dell’esempio dei PAP tests (Imager vs Manuale).

mueller_grezzi <- read.delim("~/Scuola/SSMT/TAB-TRM/R2016/tab3/12gen17/fs5_data/mueller_grezzi.txt")

# Creazione e visuaizzazione della tabella a doppia entrata

pap.t<-xtabs(~IMAGER+MANUALE,data=mueller_grezzi)
pap.t

#Esecuzione del calcolo con definizione della funzione da richiamare
lkappa.boot <- function(data,x) {lkappa(data[x,], type="weighted")}
res <- boot(mueller_grezzi,lkappa.boot,1000)
quantile(res$t,c(0.025,0.975))

Per calcolare sensibilità, specificità, valori predittivi, ecc si utilizza per esempio la libreria epiR nel seguente modo

library("epiR", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.3")
epi.tests(bzd.tabt)

#Si noti che l'ampiezza dei c.i. dipende dal numero di osservazioni !

bzd.mult<-10*bzd.tabt
epi.tests(bzd.mult)