Ricerca politica
Dai primi anni 2000 abbiamo assistito all’avvento e alla diffusione di massa di vari tipi di social networks, ognuno dei quali nato con canali di comunicazione differente. In circa vent’anni questi social networks hanno raggiunto un’audience enorme che comprende quasi tutte le fasce di età e di ceto socio economico e culturale.
Dati per assodati questi, ormai non più tanto, nuovi sistemi di comunicazione la domanda che ci siamo posti è se sia possibile, tramite l’analisi ed il monitoraggio dei post sui social networks, predire i risultati delle elezioni regionali.
I vari social networks esistenti, differenziandosi attraverso molteplici canali di comunicazione, attirano svariate tipologie di utenti e quindi anche una diversa canalizzazione degli argomenti trattati. Come è noto che Instagram punta su un sistema comunicativo basato su foto e brevi video principalmente incentrati sulla vita quotidiana degli utenti, è altresì noto che per temi come: la politica, i diritti civili, l’ambiente etc. il social network più in voga è senza dubbio Twitter. Per rispondere dunque alla domanda di ricerca ci siamo focalizzati sull’analisi dei tweet relativi alle elezioni regionali. Essendo state rimandate, a causa della pandemia globale, tutte le elezioni, abbiamo deciso di costruire il modello predittivo basandoci sui dati delle ultime elezioni avvenute in Emilia Romagna il 26 gennaio 2020, cosa che ci ha permesso di valutare la bontà e l’accuratezza del nostro modello (supervised machine learning).
L’analisi è stata svolta su un duplice fronte: l’attività su Twitter dei candidati coinvolti nelle elezioni, e l’attività dei singoli utenti che hanno partecipato attivamente (tweettato) all’argomento delle elezioni regionali. Ci siamo chiesti:
- Quali sono stati gli # più utilizzati dagli utenti? Quali quelli dei candidati?
- Quale candidato è stato più attivo su Twitter?
- Che tipo di comunicazione è stata utilizzata dai candidati (foto, video, testo)?
- Che tipo di interazioni ci sono state tra gli utenti e i candidati?
- I candidati che sono stati più al centro dell’attenzione hanno realmente vinto le elezioni? E quelli più attivi?
Frequenza degli hashtags:
- regione + elezioni
- elezioni + regione
- regione + regionali
- regionali + regione
- regionali + anno + regione
- regione + regionali + anno
- elezioniregionali + # + regione
- candidato = “cognome nome”
- cognome + presidente
- voto + cognome
- cognome + nome
- nome + cognome
- cognome
Oltre alle keywords utilizzate si è applicato un filtro sulle date che ha permesso di individuare le informazioni generate su Twitter da tre mesi prima il giorno delle elezioni a due settimane dopo.
Hashtag più utilizzati per candidato Borgonzoni
Hashtag più utilizzati per candidato Bonaccini
Hashtag più utilizzati per candidato Collot
Sono stati dunque analizzati i primi 5 hashtags più utilizzati sulle pagine ufficiali dei 3 candidati più influenti: Bonaccini, Borgonzoni e Collot (non tutti i candidati alle elezioni avevano una pagina Twitter, ad esempio Battaglia non è attivo su Twitter dal 2013). Il grafico mostra per frequenza gli hashtags utilizzati dai candidati e permette di confrontare le tematiche più sentite dagli stessi.
Dal grafico si evince immediatamente come ci sia una grande disparità della frequenza, in numeri assoluti, tra i vari candidati. Sebbene la Borgonzoni che, come si vedrà più avanti, risulta essere la candidata che ha tweettato di più (sommando i tweet fino alla data delle elezioni), la frequenza dei suoi hashtag è estremamente inferiore rispetto a quella degli altri candidati, dimostrando di non aver adottato una strategia di comunicazione basata sugli hashtag. Tesi supportata dai dati in termini assoluti: Bonaccini ha utilizzato in tutto 466 hashtag differenti, la Collot 243 mentre la Borgonzoni 66.
Si evincono inoltre i diversi approcci della strategia politica adottata dai candidati: Borgonzoni utilizza degli hashtags più autoreferenziali al contrario degli altri due candidati i quali più genericamente mettono in risalto la componente territoriale.
Frequenza giornaliera dei tweet per candidato:
È stata quindi presa in considerazione, come mostra il grafico, l’attività giornaliera dei tweet pubblicati dai candidati. È facile osservare come Bonaccini sia stato il primo tra i candidati ad attivarsi sul social network, seguito dagli altri due che invece iniziano la loro attività il mese successivo. Si possono altresì notare diversi picchi di attività in date differenti per ogni candidato probabilmente legati a fatti di cronaca. È possibile notare un unico picco di attività comune tra Bonaccini e Borgonzoni che si è manifestato in data 18/11/2019. L’ultimo aspetto che viene messo in risalto è la diminuzione generale dell’attività su Twitter da parte di tutti i candidati dopo la data delle elezioni (26 Gennaio 2019) che mostrano tutti un costante trend decrescente nelle proprie curve di attività. La Collot è stata l’unica candidata a mostrare un paio di picchi di attività anche dopo la data delle elezioni ed è stata inoltre la prima a cessare completamente di pubblicare su Twitter.
Lo step successivo è stato quello di utilizzare le frequenze cumulate per dare una visione complessiva dell’attività dei candidati. Tramite questa analisi è possibile evincere come, pur avendo iniziato il mese successivo la sua attività su Twitter, la Borgonzoni ha un trend di attività più elevato e costante nel tempo che le ha permesso di superare, in termini di tweet postati, gli altri candidati già da circa un mese prima della data delle elezioni.
Frequenza Cumulata dei tweet per candidato
Differenti formati mediali utilizzati da ogni candidato:
Distribuzione nel tempo dei tweet:
Si è deciso dunque di condurre, in modo analogo a quanto fatto in precedenza per le attività dei candidati, un’analisi della distribuzione temporale del numero dei tweet postati riguardanti le elezioni. Dal grafico si nota un accentuato picco nella distribuzione dei tweet che abbraccia la settimana delle elezioni, e il picco più alto si registra il giorno successivo la data delle elezioni. Questo ampio picco a ridosso delle elezioni racchiude una grande percentuale dell’attività su Twitter analizzata nell’intero periodo.
Data l’enorme discrepanza di mole di dati tra la settimana elettorale ed il resto del periodo di analisi, il grafico risulta poco chiaro non consentendo una limpida visualizzazione di quanto accade nell’arco temporale. Per ovviare a questo problema ed essere in grado dunque di osservare più nel dettaglio quanto accade all’andamento dell’attività sul social network da parte degli utenti nel periodo di riferimento viene graficata la stessa analisi riportando però i dati in scala logaritmica. Questo semplice “trucco” permette di affievolire molto le discrepanze tra la quantità di dati nell’arco temporale e mostra dunque non più una linea semi piatta rasente l’asse delle ascisse ma bensì una curva spezzata e di più facile lettura.
Distribuzione nel tempo dei tweet (scala logaritmica):
confronto tra hashtag, utenti ed utenti univoci
Confronto tra numero di hashtags, di utenti attivi e di utenti univoci:
Confronto tra numero di hashtags, di utenti attivi e di utenti univoci (frequenze cumulate):
Viene infine rappresentata la stessa tendenza utilizzando le frequenze cumulate, dalle quali vengono confermate le analisi condotte finora.
Interazioni tra gli utenti (soffione):
Un mese prima della data delle elezioni
Un giorno prima della data delle elezioni:
Il PageRank pesando questi “voti” fornisce una misura anche qualitativa delle interazioni, l’assunzione alla base è che i nodi più popolari tendono a essere quelli verso cui ci sono più interazioni (es. menzioni e/o risposte) e i nodi più popolari interagiscono spesso tra di loro.
La somma del PageRank di ogni nodo è uguale a 1: il PageRank del nodo A è la probabilità che un nuovo nodo si colleghi allo stesso.
Nel nostro caso abbiamo usato il PageRank sui tweet e gli archi sono le menzioni dei profili utenti o di quelli legati alle coalizioni.
L’output di quest’algoritmo è una lista che associa a ogni nodo della rete la propria influenza. Il risultato può essere anche aggregato per coalizione come mostrano le tabelle sottostanti:
Per coalizione:
Come si evince dalla tabella per coalizione il PageRank identifica correttamente il ranking del risultato elettorale.
Voti virtuali:
L’idea alla base del grafico è stata quella di utilizzare i volumi dei tweet postati dagli utenti come proxy del numero di voti per coalizione. Una coalizione è l’insieme dei partiti per cui un voto a loro favore vale per il candidato di riferimento. Trovando per esempio #pd il “voto virtuale” viene attribuito a Stefano Bonaccini, mentre #iovotolega a Lucia Borgonzoni. Tale analisi è stata effettuata sugli hashtags, sulle mentions e sul testo del tweet. Nel grafico troviamo sull’asse delle ascisse la variabile temporale, sull’asse delle ordinate la somma cumulata dei tweet. Nell’arco temporale preso in considerazione (dal 1° Ottobre 2019 al 26 Gennaio 2020) i voti virtuali attribuiti alla coalizione di Bonaccini risultano essere sempre superiori in termini numerici rispetto alle altre coalizioni.
Un ulteriore approfondimento di analisi è stato effettuato tramite l’applicazione dell’algoritmo di Share.
Lo Share è una misura di quanto sia probabile che gli utenti votino un certo candidato/partito. Per ciascun candidato si calcola la somma delle probabilità che ogni utente lo voti come segue:
- sia c_i l’i-esimo candidato appartenente alla coalizione C di cui si vuole ottenere il favore, sia u_i l’i-esimo utente appartenente all’insieme degli utenti U:
- P(c|u_i) = probabilità che u_i voti per c espresso come numero di tweet in cui u_i menziona c sul numero di candidati menzionati da u_i in tutti i suoi tweet
- Share(c) = somma di tutte le probabilità P(c|u_i) per ogni c_i in C
In pratica si pesano gli utenti più schierati. A differenza del PageRank non si tiene conto del contesto globale della rete ma solamente dei singoli tweet per ogni utente.
Ad esempio l’utente Mario Rossi che pubblica otto tweet menzionando Borgonzoni e due menzionando Bonaccini, voterà con probabilità 0.8 Borgonzoni e 0.2 Bonaccini. I due tweet potrebbero contenere entrambi candidati. Non sono rari gli utenti che non menzionano il candidato ma lo nominino nei propri tweet.
L’output dello Share è dunque una probabilità per ciascuna coalizione di ottenere il maggior numero di voti. Sia l’analisi dello Share che lo studio del volume dei tweet rappresentato nel grafico identificano correttamente il posizionamento dei candidati (ranking) alle elezioni regionali.
L’applicazione di tale algoritmo non ha però portato a risultati attendibili.