Resampling dei dati
Il Resampling, anche detto ricampionamento dei dati, rappresenta un'interessante procedura inferenziale che permette di aumentare il potenziale informativo di un campione attraverso l'estrazione di sottocampioni dello stesso.
In statistica, con i metodi di resampling dei dati o di ricampionamento si indicano differenti metodi per:
- stimare la precisione di campioni statistici (mediana, varianza, percentili) usando sottoinsiemi dei dati o scelti casualmente mediante sostituzioni a partire da un insieme dei dati;
- scambiare etichette sui dati quando si eseguono test di significatività;
- confermare modelli usando sottoinsiemi casuali.
Si può quindi distinguere tra metodi basati sull’estrazione casuale di
sottoinsiemi dei dati campionari e metodi nei quali il resampling avviene
secondo una procedura non randomizzata.
Appartengono alla prima
categoria il bootstrap e sue varianti come il subsampling.
Rientrano invece nella seconda procedure come il jackknife e la
cross-validazione. Sono annoverati nella famiglia dei metodi di ricampionamento anche
test statistici detti test di permutazione o esatti.
Bootstrap. Tecnica di ricampionamento con reimmissione per approssimare la distribuzione campionaria di una
statistica. Permette perciò di approssimare media e varianza di uno
stimatore, costruire intervalli di confidenza e calcolare p-values di
test quando, in particolare, non si conosce la distribuzione della
statistica di interesse.
Jackknife. Metodo usato, come il bootstrap e il
subsampling, per stimare caratteristiche come la distorsione e l’errore
standard di una statistica. Il jackknife
consente di ottenere le stime desiderate senza ricorrere necessariamente
ad assunzioni parametriche. A differenza degli altri due metodi, il
jackknife si basa sul calcolo della statistica di interesse per
sottocampioni ottenuti, lasciando fuori un’osservazione campionaria alla
volta. Quando la statistica di interesse è lineare nelle osservazioni,
il jackknife e il bootstrap danno risultati molto simili, tuttavia il
primo ha una maggiore semplicità di implementazione.
Cross-validazione. Metodo usato in procedure di
selezione del modello basate sul principio dell’accuratezza predittiva. Si suddivide un campione in due sottoinsiemi, dei quali
il primo viene usato per la costruzione e la
stima, mentre il secondo viene usato per
verificare l’accuratezza delle predizioni del modello stimato.
Attraverso una sintesi delle ripetute predizioni si ottiene una misura
dell’accuratezza del modello. Un metodo di cross-validazione è simile al
jackknife, poiché lascia fuori un’osservazione alla volta.
Commenti
Posta un commento