Resampling dei dati



Il Resampling, anche detto ricampionamento dei dati, rappresenta un'interessante procedura inferenziale che permette di aumentare il potenziale informativo di un campione attraverso l'estrazione di sottocampioni dello stesso.

In statistica, con i metodi di resampling dei dati o di ricampionamento si indicano differenti metodi per:
  1. stimare la precisione di campioni statistici (mediana, varianza, percentili) usando sottoinsiemi dei dati o scelti casualmente mediante sostituzioni a partire da un insieme dei dati;
  2. scambiare etichette sui dati quando si eseguono test di significatività;
  3. confermare modelli usando sottoinsiemi casuali.

Si può quindi distinguere tra metodi basati sull’estrazione casuale di sottoinsiemi dei dati campionari e metodi nei quali il resampling avviene secondo una procedura non randomizzata. 
Appartengono alla prima categoria il bootstrap e sue varianti come il subsampling
Rientrano invece nella seconda procedure come il jackknife e la cross-validazione. Sono annoverati nella famiglia dei metodi di ricampionamento anche test statistici detti test di permutazione o esatti. 

Bootstrap. Tecnica di ricampionamento con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette perciò di approssimare media e varianza di uno stimatore, costruire intervalli di confidenza e calcolare p-values di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.

Jackknife. Metodo usato, come il bootstrap e il subsampling, per stimare caratteristiche come la distorsione e l’errore standard di una statistica. Il jackknife consente di ottenere le stime desiderate senza ricorrere necessariamente ad assunzioni parametriche. A differenza degli altri due metodi, il jackknife si basa sul calcolo della statistica di interesse per sottocampioni ottenuti, lasciando fuori un’osservazione campionaria alla volta. Quando la statistica di interesse è lineare nelle osservazioni, il jackknife e il bootstrap danno risultati molto simili, tuttavia il primo ha una maggiore semplicità di implementazione. 

Cross-validazione. Metodo usato in procedure di selezione del modello basate sul principio dell’accuratezza predittiva. Si suddivide un campione in due sottoinsiemi, dei quali il primo viene usato per la costruzione e la stima, mentre il secondo viene usato per verificare l’accuratezza delle predizioni del modello stimato. Attraverso una sintesi delle ripetute predizioni si ottiene una misura dell’accuratezza del modello. Un metodo di cross-validazione è simile al jackknife, poiché lascia fuori un’osservazione alla volta.

Commenti

Post popolari in questo blog

Il moto browniano geometrico

Generazioni di variabili aleatorie