Controdati sui femminicidi: sviluppo partecipato di un algoritmo | Scienza in rete

Se mi chiedessero quali aggettivi faticherei di più ad accostare al termine “algoritmo” includerei di certo “artigianale”. Un prodotto di artigianato è fatto a mano, richiede tempo, è un pezzo unico e non può essere prodotto in serie. A volte viene ideato per una persona specifica e mal si adatta ai gusti e alle caratteristiche di altri. Eppure, l’ultimo progetto coordinato da Catherine D’Ignazio, direttrice del Data + Feminism Lab del Massachusetts Institute of Technology, mi ha aiutato a vedere come un algoritmo possa in un certo senso essere artigianale e personalizzato, soprattutto se sviluppato a beneficio di un gruppo di persone che, per questioni di potere o di numerosità, può essere considerato minoritario.

Per rendere l’algoritmo utile alle attività delle due associazioni, D’Ignazio e collaboratori hanno messo a punto un processo iterativo di co-sviluppo. Le attiviste hanno condiviso con gli informatici il tipo di notizie a cui sono interessate, identificando un insieme di parole chiave. Gli informatici hanno quindi sviluppato una prima versione dell’algoritmo che è stata valutata dalle attiviste nella loro pratica quotidiana sia in modo quantitativo che qualitativo restituendo quindi dei feedback agli informatici che hanno così raffinato il modello. Questa procedura è stata ripetuta fin quando le performance dell’algoritmo sono state ritenute adeguate dalle associazioni, almeno in via preliminare. L’ultima fase di test prolungato sul campo è tuttora in corso.

Al cuore dell’algoritmo c’è un classificatore binario, cioè un sistema che analizzando una versione sintetizzata dei testi degli articoli, li etichetta come “casi positivi”, che descrivono cioè un caso di femminicidio rilevante per l’associazione, o “casi negativi”, che descrivono cioè altri tipi di crimini. In realtà, il classificatore calcola per ogni articolo la probabilità che sia un caso positivo e se questa supera una certa soglia stabilita dai programmatori, quel caso viene etichettato come positivo.

Per calcolare questa probabilità, il classificatore deve essere “allenato” su un database di partenza, che contiene articoli già etichettati “a mano”. In questa fase l’algoritmo impara a distinguere positivi da negativi. La composizione del database di allenamento è dunque fondamentale per tutto il resto del processo.

Il punto di partenza sono stati due database: uno in inglese, costruito dall’associazione Women Count USA, e uno in spagnolo, costruito dalla associazione Feminicidio Uruguay. Il classificatore è stato allenato e testato su questi database (in un processo di ri-campionamento parziale che si chiama cross-validation) raggiungendo un’accuratezza dell’85% in inglese e dell’82% in spagnolo (l’accuratezza è la frazione di articoli etichettati correttamente).

L’algoritmo è stato poi sottoposto a un secondo test “sul campo”, lasciando che venisse utilizzato dalle associazioni coinvolte nel progetto per una settimana. Quasi tutte si sono dichiarate soddisfatte del risultato, tranne l’African American Policy Forum (AAPF) e il Sovereign Bodies Institute (SBI). Gli informatici si sono resi conto che gli articoli identificati come rilevanti nei database di allenamento, raramente descrivevano l’uccisione di donne nere da parte della polizia o di donne, ragazze e two-spirit people native americane. Per questo l’algoritmo faticava a riconoscerli quando testato sul campo.

Per ovviare a questo problema, gli informatici hanno costruito due database di allenamento specifici per le due associazioni, chiedendo alle attiviste di raccogliere e inviare articoli rilevanti per la loro causa. Gli algoritmi allenati su questi nuovi database sono riusciti a individuare una maggiore frazione di articoli rilevanti, ma hanno allo stesso tempo etichettato come positivi molti articoli che non parlavano dei casi di interesse, per esempio uccisione di uomini neri da parte della polizia oppure iniziative relative a donne indigene scomparse o uccise ma senza riferimenti a vittime precise o recenti.

Questi risultati hanno fatto capire agli informatici che il problema stava nel fatto che i casi negativi su cui l’algoritmo veniva allenato erano troppo generici. In altre parole, il confine tra articoli rilevanti e irrilevanti era messo poco a fuoco dall’algoritmo poiché i negativi riguardavano casi generali di femminicidio. I tecnici hanno quindi deciso di prendere in considerazione il contesto (violenza della polizia, comunità nativa americana) esplicitamente, assegnando a ciascun articolo due etichette, una relativa appunto al contesto e una relativa all’identità della vittima. Per esempio, per il database di allenamento dell’AAPF ogni articolo può riguardare la violenza della polizia oppure no e può riguardare una vittima donna oppure no.

Allenando, per ciascun database, due diversi classificatori per riconoscere le due diverse etichette e moltiplicando le probabilità di essere un caso positivo rispetto a ciascuna di esse, sono stati ottenuti risultati più soddisfacenti da un punto di vista quantitativo.

Sottoponendo questi nuovi algoritmi al test sul campo, sono però emersi ancora dei limiti.

Da una parte c’è il problema che mentre i database su cui sono stati allenati gli algoritmi erano bilanciati, nella realtà, l’uccisione di donne nere per mano della polizia è un fenomeno molto più raro e meno raccontato dai media di quello di una donna bianca uccisa dal partner. Dall’altra, nel caso delle comunità native americane, l’algoritmo fatica a riconoscere il ruolo che le persone nominate negli articoli hanno nella storia, confondendo per esempio la moglie di un uomo nativo americano ucciso con la vittima dell’uccisione.

I risultati ottenuti in questo progetto mostrano con chiarezza che è fondamentale considerare il contesto in cui i dati vengono raccolti e aiuta così a capire quanto i dati non sia né neutri né oggettivi.

«In contrasto con i valori di velocità ed efficienza, [impegnarsi nello sviluppo di database e algoritmi intersezionali] richiede di dedicare molto tempo e risorse aggiuntive a questi casi d'uso più specifici», scrivono gli autori nelle conclusioni. Inoltre, sottolineano che questi strumenti non devono mai essere considerati definitivi. «Le esigenze delle organizzazioni con cui collaboriamo possono evolvere e anche i dati che trattiamo possono cambiare in modo sostanziale con l'evolversi del racconto mediatico dei femminicidi».

Riconoscono, infine, che i modelli sviluppati in questo progetto potrebbero non funzionare per altri gruppi specifici, in particolare quelli che si trovano all'intersezione di molte forze di dominio, per esempio le persone trans o le lavoratrici del sesso, per cui è probabile che i casi riportati dai media siano molto poco numerosi rispetto ai femminicidi in generale.

Dal 2020 l’Osservatorio nazionale Femminicidi Lesbicidi Trans*cidi dell’associazione Non Una di Meno raccoglie un database di controdati su femminicidi e uccisioni di persone trans estremamente dettagliato. Include anche i casi di suicidio “indotti dalla violenza patriarcale omolesbobitrans*fobica”. Per ogni vittima vengono indicati il comune di residenza, l’età, l’identità presunta dell’omicida, l’eventuale presenza di figli minori lasciati orfani.

«La ricerca (anche automatica) di notizie su omicidi di donne e di persone trans, suicidi indotti, tentati omicidi, si basa su alcune parole chiave e tanta rassegna stampa», mi hanno scritto le responsabili dell’Osservatorio in una e-mail. «Abbiamo partecipato a un workshop organizzato da D'Ignazio nell’ambito del progetto “Datos contra el feminicidio” sugli algoritmi che hanno sviluppato per la ricerca tramite parole chiave. Avevamo iniziato a discutere di come applicarlo per l'Italia, ma serve un lavoro di background perché attualmente il loro sistema cerca all’interno di testi in lingua spagnola e inglese».

Oltre alle notizie sui media locali e nazionali, l’Osservatorio sfrutta spesso un contatto a livello locale. «Succede soprattutto nei casi di sex worker e persone ai margini che difficilmente finiscono sui media, per esempio donne trans* o persone straniere».

Ma a cosa possono servire i controdati sui femminicidi oltre che a costituire uno strumento di pressione su chi governa? Possono aiutare a studiare le cause del fenomeno.

Climate Media Center Italia ha scritto una lettera aperta ai media italiani: serve parlare di crisi climatica e delle sue soluzioni, a maggior ragione in campagna elettorale. La lettera è stata firmata da scienziati ed esperti di clima e ambiente, tra cui vari autori italiani dell'ultimo importante rapporto IPCC. Climate Media Center Italia ha contestualmente prodotto cinque consigli pratici su come comunicare il rischio climatico, rivolto a giornalisti e non solo.

È nostra responsabilità, come cittadini italiani e membri della comunità scientifica, avvertire nel modo più chiaro ed efficace possibile di ogni seria minaccia che riguarda le persone e il nostro Paese. È dovere dei giornalisti difendere il diritto all’informazione e diffondere notizie scientifiche verificate. Ondate di calore, siccità prolungate e incendi sono solo alcuni dei recenti gravi segnali dell’intensificarsi degli impatti dei cambiamenti climatici nei nostri territori.