Speciale sondaggi

Le elezioni europee si avvicinano, in uno scenario di tensioni internazionali mai così caldo negli ultimi decenni. La scelta degli elettori sarà fondamentale. Il voto avrà ripercussioni anche sui sempre delicati equilibri politici italiani. Withub e l’Università di Milano-Bicocca hanno creato un sistema, basato sul filtro di Kalman (lo stesso schema statistico utilizzato dai Gps per trasformare i segnali ricevuti nella posizione precisa), per stimare il consenso dei cinque principali partiti sulla base dei sondaggi dal 2018 ad oggi.

La combinazione dei risultati di diversi istituti permette di stimare l’intenzione di voto con più precisione rispetto al dato di un singolo sondaggio. E’ stato anche necessario scegliere criteri che incidono più degli altri per un’analisi statisticamente corretta. Ad esempio: i sondaggi con una numerosità campionaria più grande hanno una maggiore influenza sul valore della stima. Lo stesso vale per i sondaggi condotti più di recente rispetto a quelli più vecchi. Inoltre, combinare risultati di più sondaggi permette di correggere possibili distorsioni di stima di cui un singolo sondaggio potrebbe essere affetto.

Previsione del trend elettorale per ciascun partito: una breve nota metodologica

Di Matteo Pelagatti e Gianna Monti

I dati di partenza sono quelli relativi ai sondaggi elettorali pubblicati periodicamente da diversi istituti. Al fine di stimare l’evoluzione giornaliera delle intenzioni di voto per ciascun partito politico abbiamo utilizzato un noto algoritmo, il filtro di Kalman. Il filtro di Kalman è una tecnica statistica che può essere utilizzata per combinare una serie di misurazioni approssimative prese nel tempo per formulare una stima più accurata dell’oggetto della misurazione. Spesso viene utilizzato negli algoritmi di localizzazione GPS usati nelle app di navigazione sugli smartphone: quando si avvia l’app, la posizione rilevata è incerta, indicata da un cerchio grande intorno alla presunta posizione, ma man mano che arrivano più segnali GPS, la posizione diventa più affidabile e il punto blu si sposta più vicino alla posizione effettiva. La NASA ad esempio ha applicato negli anni ’60 il filtro di Kalman nel programma Apollo per stimare la traiettoria dell’Apollo 11 in rotta verso la Luna.

Entrando un po’ nel dettaglio del nostro metodo, abbiamo combinato i risultati provenienti dai vari sondaggi tenendo conto della dimensione del campione, ovvero dando maggior peso ai dati provenienti da campioni più numerosi. Dato che non sono disponibili sondaggi quotidianamente, per dare una continuità temporale alla stima delle intenzioni di voto per ciascun partito, abbiamo assunto che l’evoluzione temporale di ciascuna percentuale avvenga come una “passeggiata aleatoria”, cioè che la percentuale del partito xyz in un certo giorno sia pari a quella del giorno precedente sommata ad uno shock casuale.

Per un dato partito, sia y_it la serie storiche giornaliera della percentuale rilevata dall’i-esimo istituto per il giorno t. Se non vi sono rilevazioni per il giorno t, il valore della serie storica viene posto a mancante (NA). Le serie storiche avranno più dati mancanti che presenti.

Sia μ_t il “vero” valore (percentuale) delle intenzioni di voto, che i vari istituti cercano di misurare con un certo errore. Dato che abbiamo a disposizione la numerosità campionaria dei vari sondaggi supponiamo che tutti gli istituti misurino μ_t con errori ε_it normali indipendenti a media nulla e medesima varianza divisa per la numerosità campionaria del sondaggio del giorno t fatto dall’istituto i:

y_it=μ_t+ε_it,  ε_it∼N(0,σ^2/n_it ).

Infatti, sappiamo che la varianza della media campionaria è inversamente proporzionale alla numerosità del campione e questa informazione può essere inglobata nel modello.

Al contempo, per introdurre un po’ di continuità temporale (che permette anche di proiettare il valore di μ_t sui valori passati (t-1,t-2,…) e futuri (t+1,t+2,…), quando mancanti), assumiamo che la vera percentuale di intenzione di voto evolva nel tempo come un random walk:

μ_(t+1)=μ_t+η_t,  η_t ∼^iid N(0,τ^2 ).

In parole, il valore di domani è pari a quello di oggi più uno shock casuale a media zero. Questo modello può essere rappresentato in forma state-space, i parametri ignoti σ^2 e τ^2 stimati per mezzo della massima verosimiglianza e la stima di μ_t ottenuta per mezzo del filtro di Kalman (in tempo reale) e con lo smoother (usando tutti i dati disponibili).

La combinazione dei risultati di diversi istituti permette di stimare l’intenzione di voto con più precisione rispetto al dato derivante da un singolo sondaggio. I sondaggi con una numerosità campionaria più grande hanno una maggiore influenza sul valore della stima. Lo stesso vale per i sondaggi condotti più di recente rispetto a quelli più vecchi. Inoltre, combinare risultati di più sondaggi permette di correggere possibili distorsioni di stima di cui un singolo sondaggio potrebbe essere affetto: se la metodologia di un istituto di sondaggi è soggetta a un bias metodologico sistematico, allora i suoi risultati saranno diluiti da altri sondaggi.

Affinché il risultato di un sondaggio sia incluso nel nostro modello devono essere soddisfatti due criteri: la trasparenza (devono essere note le informazioni su come è stato condotto il sondaggio; quando è stato fatto il lavoro sul campo; chi lo ha condotto; chi lo ha commissionato e pagato; e la dimensione del campione) e la rappresentatività del campione (tutti i sondaggi devono essere basati su un campione di persone il più rappresentativo possibile della popolazione da cui l’istituto vuole trarre conclusioni).
Mediamente i sondaggi che abbiamo analizzato si riferiscono a campioni di un migliaio di intervistati e la qualità di ciascun singolo dato è responsabilità diretta dell’istituto che lo ha prodotto.

Attenzione