Programma di Statistical Learning And High Dimensional Data:

Introduzione generale: Problemi supervised e problemi unsupervised. Il workflow di un problema di analisi dati. Esempi vari tratti dal Cap 1. La regressione: Cosa è la regressione e perché usarla. La definizione di Loss function e di Risk function. Analisi delle Loss function più comuni: L1, L2, quantile, Vapkin’s e Huber. Definizione di Bias e Varianza, discussione e primi esempi di compromesso tra Bias e Varianza (il metodo dei vicini più vicini e il metodo lineare). La maledizione della dimensionalità. (Cap 2) La regressione lineare semplice: La regressione lineare semplice ed il metodo dei minimi quadrati per la stima dei coefficienti. Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali degli stimatori ai minimi. Il loro uso per la costruzione di test di ipotesi. Utilizzo delle proprietà distribuzionali degli stimatori ai minimi quadrati per la costruzione di intervalli di confidenza per la risposta media futura e di intervalli di predizione per la risposta futura. Coefficiente di determinazione per la valutazione della bontà del fit. Esempio di regressione lineare semplice sul data set di Galton. Utilizzo della subroutine fitlm di matlab. La regressione lineare multipla: Interpretazione algebrica ed interpretazione geometrica della soluzione ai minimi quadrati. Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali dello stimatore ai minimi. (Par 3.2) Utilizzo delle proprietà distribuzionali dello stimatore ai minimi quadrati per la costruzione di test di ipotesi e di intervalli di confidenza e di predizione. Il teorema di Gauss-Markov (Par. 3.2.2) Esempio in matlab di regressione multipla (Par. 3.2.1) Dalla regressione semplice alla regressione multipla, interpretazione dei coefficienti (Par. 3.2.3) Implementazione dell’algoritmo 3.1 di pag 54. 

I Genaralized Linear Models: Definizioni generali e parallelo con tutto ciò fatto finora sul Normal Linear Model. Definizione di exponential dispersion family ed alcuni casi particolari. Definizione di link function. Proprietà distribuzionali asintotiche dello stimatore di Massima Verosimiglianza e loro utilizzo per la costruzione di I.C. asintotici e test di ipotesi. Definizione di devianza e suo significato. L’algoritmo Iterative Reweighted Least Square (I.R.L.S.) per il calcolo dello stimatore di Massima Verosimiglianza. (Cap 4 di Agresti). Esempio di GLM, la “logistic regression” ed utilizzo della subroutine di matlab “fitglm” (esempio South African Heart Desease Par 4.4.2 di Hastie et al.)

 

Tecniche per il trattamento di dati ad alta dimensione: Discussione delle problematiche in caso di collinearità e/o nel caso p>n.Discussione generale sulle possibili tecniche da adottare nel caso di dati ad alta dimensione, specializzazione di queste tecniche al caso del modello lineare con funzione perdita L2. Discussione generale sulle possibili tecniche per fare selezione del modello, studio della Cross Validation. (Par 7.1-7.2-7.10) Accenno ai seguenti criteri di selezione del modello: C_p (Mallow’s), AIC (Akaike Information Criterion), BIC (Bayeisan Informaion Criteiron), MDL (Minimum Description Lenght). Il metodo della Best Subset Selection, vantaggi e svantaggi. Su un data set sintetico verifica della sua forte variabilità. Il metodo della Forward Stepwise Selection, vantaggi e svantaggi. Confronto con la Best Subset Selection su un data set sintetico, il comando stepwiselm di matlab. Il metodo della Forward Stagewise Regression, vantaggi e svantaggi La tecnica della PCA (Principal Component Analysis) per la riduzione della dimensionalità di un set di dati qualsiasi. Il metodo della PC regression, vantaggi e svantaggi. I Partial Least Square, e loro confronto con la PC regression. La tecnica della supervised PC regression. La Ridge regression come metodo di penalizzazione e dal punto di vista geometrico. Il concetto generale di degree of fredom per un metodo di supervised learning. Il calcolo del df nel caso della ridge regression. Equivalenza tra la scelta del parametro di penalizzazione della Ridge e la regolarizzazione iterativa ad arresto precoce. La penalizzazione LASSO. Giustificazione numerica e geometrica della scelta della norma l_1 per avere soluzioni sparse. Soluzione esplicita del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design ortonormale. Algoritmo Pathwise coordinate optimization per la soluzione del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design generale. Nota sulla normalizzazione delle colonne della matrice design e commenti sulla routine di matlab ‘lasso.m’. Interpretazione bayesiana della penalty lasso. La scelta del parametro di regolarizzazione e possibile stima dl degree of fredom per il problema di regressione lineare con penalty lasso. Proprietà teoriche dello stimatore lasso nel caso di modello lineare. Dimostrazione della slow e della fast convergence rate del prediction error. Analisi della subroutine lasso di matlab esempio di applicazione del metodo al dataset prostate cancer data e ricostruzione completa della tavola 3.3 del libro di testo. Possibili miglioramenti del metodo Lasso: elastic net, relaxed lasso, adaptive lasso. Le penalty SCAD e MCP. Commenti ed esempio sintetico per un confronto tra le possibili penalty diverse. Come utilizzare il modello lineare per lavorare con modelli non lineari sia parametrici che non parametrici. La regressione polinomiale a tratti: le regression splines e le smoothing splines.