Ricerca politica

Analisi sulla corrispondenza tra i risultati elettorali delle elezioni regionali (Emilia Romagna 26 Gennaio 2020) e l’attività dei candidati ed utenti su Twitter

Dai primi anni 2000 abbiamo assistito all’avvento e alla diffusione di massa di vari tipi di social networks, ognuno dei quali nato con canali di comunicazione differente. In circa vent’anni questi social networks hanno raggiunto un’audience enorme che comprende quasi tutte le fasce di età e di ceto socio economico e culturale.

Dati per assodati questi, ormai non più tanto, nuovi sistemi di comunicazione la domanda che ci siamo posti è se sia possibile, tramite l’analisi ed il monitoraggio dei post sui social networks, predire i risultati delle elezioni regionali.

I vari social networks esistenti, differenziandosi attraverso molteplici canali di comunicazione, attirano svariate tipologie di utenti e quindi anche una diversa canalizzazione degli argomenti trattati. Come è noto che Instagram punta su un sistema comunicativo basato su foto e brevi video principalmente incentrati sulla vita quotidiana degli utenti, è altresì noto che per temi come: la politica, i diritti civili, l’ambiente etc. il social network più in voga è senza dubbio Twitter. Per rispondere dunque alla domanda di ricerca ci siamo focalizzati sull’analisi dei tweet relativi alle elezioni regionali. Essendo state rimandate, a causa della pandemia globale, tutte le elezioni, abbiamo deciso di costruire il modello predittivo basandoci sui dati delle ultime elezioni avvenute in Emilia Romagna il 26 gennaio 2020, cosa che ci ha permesso di valutare la bontà e l’accuratezza del nostro modello (supervised machine learning).

L’analisi è stata svolta su un duplice fronte: l’attività su Twitter dei candidati coinvolti nelle elezioni, e l’attività dei singoli utenti che hanno partecipato attivamente (tweettato) all’argomento delle elezioni regionali. Ci siamo chiesti:

 

  • Quali sono stati gli # più utilizzati dagli utenti? Quali quelli dei candidati?
  • Quale candidato è stato più attivo su Twitter?
  • Che tipo di comunicazione è stata utilizzata dai candidati (foto, video, testo)?
  • Che tipo di interazioni ci sono state tra gli utenti e i candidati?
  • I candidati che sono stati più al centro dell’attenzione hanno realmente vinto le elezioni? E quelli più attivi?

Frequenza degli hashtags:

Il punto di partenza dell’analisi è stato l’individuazione, tramite fonti istituzionali (Dipartimento per gli Affari Interni e Territoriali), delle informazioni tramite le quali sono stati costruiti i filtri utilizzati per ottenere, dallo scarico dei dati sul social network, solo le informazioni inerenti al tema oggetto di analisi. Da questo primo step sono stati individuati i pattern atti all’individuazione delle keywords. Tali pattern sono esplicitati come segue:

  • regione + elezioni
  • elezioni + regione
  • regione + regionali
  • regionali + regione
  • regionali + anno + regione
  • regione + regionali + anno
  • elezioniregionali + # + regione
  • candidato = “cognome nome”
  • cognome + presidente
  • voto + cognome
  • cognome + nome
  • nome + cognome
  • cognome

Oltre alle keywords utilizzate si è applicato un filtro sulle date che ha permesso di individuare le informazioni generate su Twitter da tre mesi prima il giorno delle elezioni a due settimane dopo.

Una volta ottenuto il dataset filtrato, uno degli aspetti fondamentali dell’analisi riguardante le elezioni regionali in Emilia Romagna del 26 Gennaio 2019 è passato attraverso l’analisi degli hashtags utilizzati dagli utenti. Nel grafico vengono rappresentati i diversi hashtags utilizzati con la relativa frequenza. Come preventivabile nei primi posti troviamo degli hashtags generici relativi al tema delle elezioni (#ELEZIONIEMILIAROMAGNA), seguiti poi dai nomi dei principali candidati ed esponenti politici. Si trovano anche riferimenti alle elezioni regionali della Calabria in quanto avvenute in concomitanza a quelle dell’Emilia Romagna. Dal grafico risulta inoltre evidente come Salvini, pur non essendo candidato, sia estremamente citato: l’hashtag “Salvini” si trova in sesta posizione. Da questa analisi degli hashtags sono emersi anche alcuni temi come: Bibbiano e il movimento delle Sardine che, pur non essendo estremamente legati alle elezioni regionali, erano dei temi estremamente discussi sulla rete e spesso inseriti anche nei dibattiti politici riguardanti le elezioni oggetto di analisi.

Hashtag più utilizzati per candidato Borgonzoni

Hashtag più utilizzati per candidato Bonaccini

Hashtag più utilizzati per candidato Collot

Per approfondire lo studio relativo alle elezioni regionali sono stati scaricati tutti i dati provenienti dalle pagine ufficiali dei candidati utilizzando però in questo caso solamente un filtro sulle date di pubblicazione dei tweet. l’applicazione di questo filtro è giustificata dal fatto che è stato presunto che a ridosso delle elezioni i post dei candidati sulle loro pagine ufficiali fossero relativi alla tematica delle elezioni stesse. Dallo scarico delle informazioni delle pagine ufficiali dei candidati è stata riscontrata l’assenza o la quasi totale inattività di alcuni candidati stessi. Data questa grande differenza di volumi di informazioni tra i candidati e, dopo un’attenta analisi, si è deciso di riportare e graficare solo gli hashtags provenienti dalle pagine dei candidati più influenti.

Sono stati dunque analizzati i primi 5 hashtags più utilizzati sulle pagine ufficiali dei 3 candidati più influenti: Bonaccini, Borgonzoni e Collot (non tutti i candidati alle elezioni avevano una pagina Twitter, ad esempio Battaglia non è attivo su Twitter dal 2013). Il grafico mostra per frequenza gli hashtags utilizzati dai candidati e permette di confrontare le tematiche più sentite dagli stessi.

Dal grafico si evince immediatamente come ci sia una grande disparità della frequenza, in numeri assoluti, tra i vari candidati. Sebbene la Borgonzoni che, come si vedrà più avanti, risulta essere la candidata che ha tweettato di più (sommando i tweet fino alla data delle elezioni), la frequenza dei suoi hashtag è estremamente inferiore rispetto a quella degli altri candidati, dimostrando di non aver adottato una strategia di comunicazione basata sugli hashtag. Tesi supportata dai dati in termini assoluti: Bonaccini ha utilizzato in tutto 466 hashtag differenti, la Collot 243 mentre la Borgonzoni 66.

Si evincono inoltre i diversi approcci della strategia politica adottata dai candidati: Borgonzoni utilizza degli hashtags più autoreferenziali al contrario degli altri due candidati i quali più genericamente mettono in risalto la componente territoriale.

Frequenza giornaliera dei tweet per candidato:

Data la composizione del database, costruito con le informazioni in merito all’attività dei candidati sulle proprie pagine ufficiali, si è deciso di compiere un’analisi temporale di tale attività al fine di studiare l’eventuale impatto derivante dai post pubblicati dai candidati sul risultato elettorale.

È stata quindi presa in considerazione, come mostra il grafico, l’attività giornaliera dei tweet pubblicati dai candidati. È facile osservare come Bonaccini sia stato il primo tra i candidati ad attivarsi sul social network, seguito dagli altri due che invece iniziano la loro attività il mese successivo. Si possono altresì notare diversi picchi di attività in date differenti per ogni candidato probabilmente legati a fatti di cronaca. È possibile notare un unico picco di attività comune tra Bonaccini e Borgonzoni che si è manifestato in data 18/11/2019. L’ultimo aspetto che viene messo in risalto è la diminuzione generale dell’attività su Twitter da parte di tutti i candidati dopo la data delle elezioni (26 Gennaio 2019) che mostrano tutti un costante trend decrescente nelle proprie curve di attività. La Collot è stata l’unica candidata a mostrare un paio di picchi di attività anche dopo la data delle elezioni ed è stata inoltre la prima a cessare completamente di pubblicare su Twitter.

Lo step successivo è stato quello di utilizzare le frequenze cumulate per dare una visione complessiva dell’attività dei candidati. Tramite questa analisi è possibile evincere come, pur avendo iniziato il mese successivo la sua attività su Twitter, la Borgonzoni ha un trend di attività più elevato e costante nel tempo che le ha permesso di superare, in termini di tweet postati, gli altri candidati già da circa un mese prima della data delle elezioni.

Frequenza Cumulata dei tweet per candidato

Differenti formati mediali utilizzati da ogni candidato:

Che diverse strategie di comunicazione sono state utilizzate dai tre principali candidati? Tramite il grafico abbiamo provato a dare una risposta a questa domanda. Come mostrato nei grafici precedenti la Borgonzoni è la candidata che ha postato maggiormente su Twitter, è però Bonaccini colui il quale ha utilizzato immagini e foto nei suoi post con maggior frequenza (il 72% dei suoi post contiene almeno una foto). Per quanto riguarda i video si può notare lo scarso utilizzo.

Distribuzione nel tempo dei tweet:

Per dare una risposta alla domanda di ricerca si è deciso di condurre un’analisi su un duplice fronte: studiare, come già spiegato in precedenza, l’attività su Twitter degli utenti che riguardasse il tema delle elezioni, ed analizzare anche il comportamento tenuto dai candidati nelle loro pagine ufficiali. Tale distinzione è stata mantenuta in quanto per un’attribuzione di voti “virtuali”, volti a poter predire i risultati elettorali, non è sembrato corretto tenere in considerazione le informazioni postate dai candidati stessi sulle loro pagine ufficiali. Aggregare entrambi i database e condurre un’unica analisi avrebbe portato, data anche la mole di dati presenti su entrambi i fronti, un problema di Bias che avrebbe distorto i risultati.

Si è deciso dunque di condurre, in modo analogo a quanto fatto in precedenza per le attività dei candidati, un’analisi della distribuzione temporale del numero dei tweet postati riguardanti le elezioni. Dal grafico si nota un accentuato picco nella distribuzione dei tweet che abbraccia la settimana delle elezioni, e il picco più alto si registra il giorno successivo la data delle elezioni. Questo ampio picco a ridosso delle elezioni racchiude una grande percentuale dell’attività su Twitter analizzata nell’intero periodo.

Data l’enorme discrepanza di mole di dati tra la settimana elettorale ed il resto del periodo di analisi, il grafico risulta poco chiaro non consentendo una limpida visualizzazione di quanto accade nell’arco temporale. Per ovviare a questo problema ed essere in grado dunque di osservare più nel dettaglio quanto accade all’andamento dell’attività sul social network da parte degli utenti nel periodo di riferimento viene graficata la stessa analisi riportando però i dati in scala logaritmica. Questo semplice “trucco” permette di affievolire molto le discrepanze tra la quantità di dati nell’arco temporale e mostra dunque non più una linea semi piatta rasente l’asse delle ascisse ma bensì una curva spezzata e di più facile lettura.

Distribuzione nel tempo dei tweet (scala logaritmica):

confronto tra hashtag, utenti ed utenti univoci

Confronto tra numero di hashtags, di utenti attivi e di utenti univoci:

Confronto tra numero di hashtags, di utenti attivi e di utenti univoci (frequenze cumulate):

Un interessante aspetto che è stato analizzato è il confronto tra la numerosità degli hashtags utilizzati, il numero degli utenti che hanno pubblicato tweet e il numero di utenti univoci attivi sul socialnetwork. Da questa analisi, come riportato nei grafici, risulta subito evidente il picco di attività a ridosso della data delle elezioni. È altresì rilevante notare che hashtags, utenti e utenti univoci presentano lo stesso andamento temporale, e non mostrano forbici significative: questo sta a significare che ad un aumento di hashtags postati corrisponde un pari aumento di utenti che postano. Questo aspetto risulta ancora più evidente se vengono riportati i valori su scala logaritmica come mostrato nel secondo grafico.

Viene infine rappresentata la stessa tendenza utilizzando le frequenze cumulate, dalle quali vengono confermate le analisi condotte finora.

Interazioni tra gli utenti (soffione):

Un mese prima della data delle elezioni

Un giorno prima della data delle elezioni:

Questa rappresentazione grafica mostra le varie interazioni che ci sono state tra gli utenti un mese prima e il giorno prima delle elezioni. Ogni “pallino” del grafo, che viene chiamato nodo rappresenta un singolo utente. Gli archi che collegano i vari nodi rappresentano le interazioni tra gli stessi e dunque se un utente ha menzionato, utilizzando la @, o nel testo fa riferimento ad un altro utente. I nodi più grandi rappresentano gli utenti che sono stati maggiormente oggetto di interazioni. Nel grafico circolare la posizione dei singoli nodi rispetto al centro ha un significato specifico: essenzialmente alcuni sono molto più attivi e interagiscono con un buon numero di utenti e sono al centro, gli altri invece sono più o meno oggetto di attenzione. I candidati si trovano quasi tutti in prossimità del bordo in quanto soggetti passivi di interazione (sono oggetto di molte citazioni/menzioni ma a loro volta non interagiscono così attivamente con gli utenti). Come preventivabile la mole di utenti/nodi e dunque delle loro interazioni subisce un netto incremento considerando i dati il giorno prima delle elezioni rispetto agli stessi del mese precedente. Partendo dalle interazioni riportate nel grafico abbiamo analizzato l’influenza dei nodi (associati ai candidati) attraverso l’utilizzo del noto algoritmo: PageRank. L’influenza e quindi il valore di PageRank è calcolato come una quantità di voti, in generale non necessariamente nel contesto dei voti elettorali, supporto o espressione di interesse che un nodo riceve da parte di tutti gli altri nella rete. Un arco diretto tra A e B significa che A esprime interesse verso B. Intuitivamente se A è un personaggio di spicco che interagisce spesso con B, potrebbe spostare molti elettori verso B. Il PageRank pesa questi “voti”/supporti/espressioni di interesse, ad esempio: se il nodo A ha grande supporto e dunque un alto valore di PageRank, il nodo B, che interagisce con A, ottiene un PageRank più alto che se l’arco entrante provenisse da un nodo C che non ha supporto e quindi influenza. PageRank è un algoritmo ricorsivo: l’influenza di ogni nodo è calcolata sulla base dell’influenza dei nodi che hanno un arco verso lo stesso.

Il PageRank pesando questi “voti” fornisce una misura anche qualitativa delle interazioni, l’assunzione alla base è che i nodi più popolari tendono a essere quelli verso cui ci sono più interazioni (es. menzioni e/o risposte) e i nodi più popolari interagiscono spesso tra di loro.

La somma del PageRank di ogni nodo è uguale a 1: il PageRank del nodo A è la probabilità che un nuovo nodo si colleghi allo stesso.

Nel nostro caso abbiamo usato il PageRank sui tweet e gli archi sono le menzioni dei profili utenti o di quelli legati alle coalizioni.

L’output di quest’algoritmo è una lista che associa a ogni nodo della rete la propria influenza. Il risultato può essere anche aggregato per coalizione come mostrano le tabelle sottostanti:

Per coalizione:

Come si evince dalla tabella per coalizione il PageRank identifica correttamente il ranking del risultato elettorale.

Voti virtuali:

L’idea alla base del grafico è stata quella di utilizzare i volumi dei tweet postati dagli utenti come proxy del numero di voti per coalizione. Una coalizione è l’insieme dei partiti per cui un voto a loro favore vale per il candidato di riferimento. Trovando per esempio #pd il “voto virtuale” viene attribuito a Stefano Bonaccini, mentre #iovotolega a Lucia Borgonzoni. Tale analisi è stata effettuata sugli hashtags, sulle mentions e sul testo del tweet. Nel grafico troviamo sull’asse delle ascisse la variabile temporale, sull’asse delle ordinate la somma cumulata dei tweet. Nell’arco temporale preso in considerazione (dal 1° Ottobre 2019 al 26 Gennaio 2020) i voti virtuali attribuiti alla coalizione di Bonaccini risultano essere sempre superiori in termini numerici rispetto alle altre coalizioni.
Un ulteriore approfondimento di analisi è stato effettuato tramite l’applicazione dell’algoritmo di Share.

Lo Share è una misura di quanto sia probabile che gli utenti votino un certo candidato/partito. Per ciascun candidato si calcola la somma delle probabilità che ogni utente lo voti come segue:

  • sia c_i l’i-esimo candidato appartenente alla coalizione C di cui si vuole ottenere il favore, sia u_i l’i-esimo utente appartenente all’insieme degli utenti U:
  • P(c|u_i) = probabilità che u_i voti per c espresso come numero di tweet in cui u_i menziona c sul numero di candidati menzionati da u_i in tutti i suoi tweet
  • Share(c) = somma di tutte le probabilità P(c|u_i) per ogni c_i in C

In pratica si pesano gli utenti più schierati. A differenza del PageRank non si tiene conto del contesto globale della rete ma solamente dei singoli tweet per ogni utente.

Ad esempio l’utente Mario Rossi che pubblica otto tweet menzionando Borgonzoni e due menzionando Bonaccini, voterà con probabilità 0.8 Borgonzoni e 0.2 Bonaccini. I due tweet potrebbero contenere entrambi candidati. Non sono rari gli utenti che non menzionano il candidato ma lo nominino nei propri tweet.

L’output dello Share è dunque una probabilità per ciascuna coalizione di ottenere il maggior numero di voti. Sia l’analisi dello Share che lo studio del volume dei tweet rappresentato nel grafico identificano correttamente il posizionamento dei candidati (ranking) alle elezioni regionali.

L’applicazione di tale algoritmo non ha però portato a risultati attendibili.