Cosa accade quando si fanno incontrare letteratura e strumenti computazionali? Quali nuovi percorsi ci si aprono davanti? Sono queste le domande che accompagnano il mio percorso di studi da quattro anni a questa parte, domande che mi hanno portata fino a Parigi e che, lungo il percorso, hanno generato e generano tutt’ora ricerche, scoperte e nuove interessanti curiosità.
Queste stesse domande muovono lo studio che vi voglio raccontare oggi, uno studio svolto in occasione di un progetto di esame e che – come quello condotto in occasione della mia tesi triennale – mi ha permesso di toccare con mano le potenzialità di questo incrocio di saperi nuovo, che affianca alla lettura diretta dei testi letterari una lettura automatica o a distanza. L’obiettivo che guida questo approccio è quello di capire cosa si scopre quando si guarda il testo un po’ da lontano, in maniera statistica, in cerca di particolarità che altrimenti, con i soli nostri occhi umani, non saremmo in grado di cogliere.
Dentro i mondi linguistici di Serao, Neera e della Marchesa Colombi
Oltre alle macro domande di cui vi parlavo in apertura, lo studio che vi racconto oggi muoveva da un altro quesito, sempre più attuale nel mondo della letteratura computazionale: cosa distingue un autore o un’autrice dagli altri? Quali sono gli elementi caratteristici, le impronte digitali, della sua scrittura? Esiste un modo automatico per trovare queste impronte caratteristiche e studiarle?
In termini tecnici, queste domande rientrano sotto il grande cappello dell’authorship verification o authorship attribution, un filone di ricerca che prova a estrarre dai testi queste impronte per distinguere un’autrice o un autore in moltissimi casi di studio diversi. L’utilità di farlo in maniera automatica, con il supporto di strumenti informatici, è che poi si possono applicare i risultati a grandi corpora di testi, che contengono quantitativi di romanzi impossibili da leggere a mano per un essere umano normale (o per un gruppo di ricerca, per quanto grande); o, ancora, a testi così complessi e dalla genitorialità così ambigua per cui anche la persona più esperta nel campo non riesce a dissolvere del tutto i dubbi sulla sua attribuzione.
Nel mio caso, ho scelto di provare a estrarre le impronte di tre autrici italiane di fine Ottocento che sono state, come spesso capita, messe più o meno da parte dal nostro canone: Matilde Serao (Patrasso, 1856 – Napoli 1927), Anna Maria Zuccari (Milano, 1846 – Milano 1918) – conosciuta nell’ambiente letterario come Neera – e Maria Antonietta Torriani (Novara, 1840 – Milano, 1920), anche lei meglio nota con il suo pseudonimo di Marchesa Colombi.
La mia domanda guida era: posso immaginare un caso in cui mi sarebbe utile distinguere il testo di una delle tre da quelli delle altre? Quanto si somigliano queste tre scrittrici quasi contemporanee che scrivevano sulle stesse riviste e le cui opere passavano di mano in mano tra lettrici e lettori di un’Italia sempre più unita e in costante comunicazione?
In cerca delle impronte digitali stilistiche
Per rispondere a queste domande, mi era necessario prima di tutto estrarre le impronte stilistiche dai testi delle tre autrici. Per farlo mi sono rivolta innanzitutto al Progetto Gutemberg, che raccoglie opere letterarie i cui diritti sono già scaduti, e le mette a disposizione per lo scaricamento gratuito (viva la scienza libera, anche se ahimè in Italia il sito è bloccato e per accedervi tocca fare un po’ di contorsionismo informatico).
Di ogni autrice ho scelto quattro o cinque opere, le ho ripulite da tutti quegli elementi di contorno che in gergo tecnico chiamamo paratesti e le ho frammentate in paragrafi (di lunghezza ben definita, e tra poco vi spiego perché).
A questo punto sono passata al lato più prettamente informatico, per raccontarvi il quale sarò costretta a lanciare qui e là un po’ di tecnicismi, che cercherò di spiegare al meglio delle mie possibilità di divulgatrice in erba. Mi sono infatti procurata dei modelli di apprendimento supervisionato, quei misteriosi e magici modelli che di questi tempi sono un po’ in bocca a tutti noi, anche se non ne capiamo fino in fondo il funzionamento. Possiamo immaginare quelli che ho usato io come i cugini campagnoli e semplici dei moderni e ruggenti ChatGPT, Gemini etc (anche se concettualmente differenti, gli informatici all’ascolto mi perdoneranno per la semplificazione).
Non spiegherò nel dettaglio come funzionano questi modelli, anche perché non credo di averne davvero le capacità; dirò soltanto che il principio alla base degli SVM e di Bert, i modelli che ho usato in questo contesto, è quello della classificazione: questi modelli sono infatti in grado, preso un grande corpus di oggetti con le loro belle etichette lucenti, di dividere quegli oggetti in categorie. Per farvi un esempio: dati degli alberi, delle persone e delle biciclette, debitamente etichettati con il loro nome, i modelli sono più o meno in grado (a seconda di un sacco di fattori che sarebbe noioso elencare) di dire “questa è una bicicletta, questo un albero, questo un uomo” anche per oggetti simili che ancora non hanno mai visto.
Nel mio caso, gli oggetti erano i paragrafi estratti dai testi, di dimensioni tutte simili e adatte ai modelli, e le etichette il nome dell’autrice che li aveva prodotti. Il mio scopo era far vedere ai modelli alcuni paragrafi già etichettati, lasciare che questi si facessero la loro idea dello “stile” della autrice (ci torniamo a breve) e poi provare a vedere se riuscivano a riconoscerla in un paragrafo mai visto e privo di etichetta.
Come riconoscere lo stile di un’autrice: metodi di authorship attribuzion e stilometria computazionale
E qui la domanda sorge spontanea: come si rappresenta lo stile di un’autrice o di un autore? Per rispondere a questa domanda dobbiamo farcene un’altra, più basilare: cos’è lo stile? Istintivamente, siamo tutti in grado di dare una risposta, anche semplice, a questa domanda: è il modo in cui un’autrice un autore scrive, il modo in cui mette insieme le parole, le frasi, il modo in cui usa la punteggiatura. E la risposta linguistica a questa domanda non è tanto differente.
In linguistica parliamo di lunghezza delle frasi e delle parole, di profondità degli alberi sintattici, di distribuzione delle relazioni di dipendenza; ma anche di scelta di parole e della loro combinazione, di semantica, pragmatica e così via. Possiamo concentarci su diversi livelli di studio, perché la scrittura è una faccenda complessa come lo è il linguaggio in generale, e le strade per provare a rappresentare lo stile sono numerose e attualmente ancora in corso di definizione. Possiamo ad esempio decidere di considerare solo la morfologia e la sintassi (che a scuola abbiamo tutti studiato nelle interminabili lezioni di grammatica), o di andare più in là e considerare appunto anche la semantica (il significato delle parole) o la pragmatica (le relazioni tra le parole e il contesto sociale nel quale sono pronunciate).
Il livello che scegliamo di considerare diventa la nostra rappresentazione, ovvero l’informazione che diamo al nostro modello per “comprendere” il testo (non mi uccidete per questa licenza antropomorfa, colleghi informatici e linguisti, siam qui per fare divulgazione, non per essere perfettamente accurati). Più livelli consideriamo, o più sono complessi questi livelli, più avremo bisogno di utilizzare modelli complessi, recenti e pesanti (e non sempre, purtroppo, gratuiti).
Nella mia ricerca, i livelli di informazioni erano già stabiliti dalle specifiche del progetto di esame: informazioni esclusivamente linguistiche per il primo modello (struttura, profondità delle relazioni etc); informazioni lessicali per il secondo, in forma di combinazioni di parole chiamate n-grammi; informazioni semantiche in forma di vettori per il terzo (e non entro troppo nel dettaglio perché qui la questione si fa molto tecnica e complessa, ma per approfondire vi rimando a questo fantastico blog); e, infine, sempre informazioni semantiche ma in contesto per l’ultimo modello, a funzionamento un po’ diverso rispetto ai primi tre.
[per i tecnici tra voi, i primi tre erano modelli SVM, il terzo un Bert addestrato sull’italiano, con un livello di complessità crescente perché crescente è la complessità dell’informazione considerata]
Scegli i modelli, prendi le rappresentazioni, mischi il tutto… e voilà!
A questo punto, ho fatto partire quello che viene definito l’addestramento, ovvero ho dato in pasto ai miei modelli i testi rappresentati nei modi descritti sopra e le loro etichette e ho aspettato che facessero le loro magie. Ovvero, che si costruissero una loro idea (anche qui, tremendamente antropomorfa come scelta di parole, ma d’altronde siamo umani e capiamo molto meglio quando parliamo umano) dei testi che stavano vedendo.
Il tempo di addestramento è variabile, ma intuitivamente aumenta più sono complesse le rappresentazioni: sintassi e morfologia sono semplici, anche noi umani le apprendiamo facilmente quando siamo ancora giovani; la semantica comincia ad essere più complessa, perché si tratta di assorbire molta informazione sul significato della singola parola e, nel caso della semantica in contesto, la complessità aumenta ancora perché aumenta la complessità dei modelli in grado di gestirla, e dunque il tempo che ci vuole per avere una risposta.
Nel nostro caso, poi, le ultime due rappresentazioni erano già ben complesse di loro, perché le autrici sono tutte ottocentesche, e usano termini che i modelli come Bert – addestrati con i testi prodotti oggi – spesso non hanno mai visto, o hanno visto in forma parecchio differente.
Mentre i modelli macinano le loro risposte (in senso metaforico, visto che scrivo ben dopo la conclusione del progetto, ma rende bene l’idea), noi ci prendiamo il tempo per tornare a fare le persone appassionate di letteratura e iniziamo a mettere ben in ordine le nostre domande di ricerca. Per farlo, chiediamo aiuto a Katharine Mitchell, studiosa di letteratura italiana e Gender Studies presso l’Università di Glasgow che si è interessata proprio a Serao, Neera e Colombi, tra le altre. Il suo Italian Women Writers. Gender and Everyday Life in Fiction and Journalism, 1870-1910 ci è utile per mettere ben a fuoco il contesto nel quale si muovevano le nostre autrici: l’Italia di fine Ottocento, i salotti letterari, le riviste, ma anche e soprattutto l’ambiente domestico, la casa, l’interazione con la famiglia e con la servitù. Questi non sono solo gli ambienti delle autrici, ma anche gli scenari che ritroviamo nei loro libri, e nei quali si imbattono anche i nostri modelli.
E finalmente i risultati delle analisi computazionali
Viste tutte le considerazioni a monte, e soprattutto le ultime condivise con Mitchell, non stupisce scoprire che i modelli trovino estremamente difficile riconoscere le tre autrici: quello che ci dicono i risultati, in prima istanza, è proprio che i temi e le parole usate nei testi sono davvero troppo simili. Se avessimo dato loro in pasto, che so, un libro della saga di Harry Potter e Shining, probabilmente per loro sarebbe stato ben più semplice riconoscere Rowling da King: le parole mago, bacchetta, magia, castello avrebbero dato molte informazioni, diverse e ben distinguibili da hotel, accetta e così via.
Qui, però, le parole si somigliano tutte: hanno a che fare, proprio come immaginavamo, con la casa e il focolare domestico, i sentimenti e le relazioni umane. I modelli che usano i significati delle parole, dunque, sono quelli che fanno più fatica a crearsi un’idea netta e distinta delle tre autrici.
La soddisfazione della linguista
Se le parole non ci aiutano a distinguerle, però, altri elementi lo fanno. In particolare, quelli linguistici non lessicali e soprattutto le combinazioni delle parole e dei segni di punteggiatura. E dunque, ecco che scopriamo che Colombi è l’autrice che tra le tre usa più parole contenuto, ovvero parole che servono a veicolare informazione (parlare è una parola contenuto, che o perché sono parole funzionali che reggono la struttura); ed è anche quella che usa più di frequente la punteggiatura prima di una congiunzione (vide, e disse…).
I paragrafi scritti da Neera sono più lunghi di quelli delle altre autrici e caratterizzati da un alto numero di frasi coordinate (unite tra loro da una congiunzione, come quella che avete appena letto); è anche l’autrice che usa di più punti esclamativi e punti di domanda all’interno dei suoi racconti!
Serao, infine, usa ben più delle altre le frasi subordinate, che complicano il periodo e rendono la lettura meno scorrevole, poiché ci costringono a mantenere in memoria il momento in cui abbiamo cominciato la lettura, per non perdere il filo mentre arriviamo con ansia al primo punto disponibile (ho reso l’idea?).
I risultati dei modelli ovviamente sono espressi in forma di numeri (perché con i numeri ragionano i barattolini che usiamo per condurre le analisi, e per parlarci e leggerci in questo contesto) e non sono proprio gradevoli da interpretare, quindi sono poco adatti a un articolo di questo tipo; se però avete curiosità, trovate tutto, comprese matrici di confusione e f1score (va’ che paroloni) nel link in fondo all’articolo.
L’influenza dell’ambiente sociale e culturale
Altra cosa interessante che ci salta all’occhio, guardando i risultati dei modelli, è l’influenza dell’ambiente sociale e cultura delle autrici. Nel corso delle analisi, i modelli che usavano rappresentazioni in forma di parole si sono confusi maggiormente tra Colombi e Neera, mentre le produzioni di Serao sono state individuate con più sicurezza.
È affascinante in questo caso provare a fare delle ipotesi, basandoci sulle biografie delle autrici (perdoname, Proust, por mi vida loca). Se i modelli si confondono, è probabilmente perché le parole usate sono davvero molto simili, e usate in contesti simili. Colombi e Neera hanno vissuto entrambe al Nord Italia, muovendosi tra Milano e Torino, mentre Serao ha trascorso la vita tra Napoli e Roma, entrando meno in contatto con l’ambiente sociale delle altre due. In questo caso, le due scrittrici settentrionali potrebbero davvero scrivere in maniera simile, usando espressioni e modi di dire tipicamente del Nord, mentre l’autrice meridionale potrebbe aver sviluppato uno stile più caratteristico e distante dalle altre due.
E qui la ricercatrice esaltata si esalta ancora di più, perché per confermare questa ipotesi si può immaginare un nuovo studio, che cerchi nei testi delle autrici proprio le forme d’uso tipiche dei diversi ambienti sociali, per verificare se questo può essere un altro elemento distintivo da segnare nei nostri taccuini da detective.
Qualche considerazione finale e qualche impressione da lettrice
Questo, come immaginerete, non è che uno studio piccolo, ben ridotto e confinato ai testi di tre autrici italiane, e non può certo rivelare tutte le potenzialità di un campo in costante crescita e sviluppo. Non so nemmeno se avrà un suo sviluppo, e se la mia densa vita da studente internazionale mi permetterà di indagare ancora i testi di Matilde Serao, Neera e della Marchesa Colombi.
La soddisfazione di essere riuscita a condurre uno studio autonomo però è tanta, mi sembra di aver tracciato un piccolo sentiero che io – o altre persone – potremo continuare a percorrere in futuro o dal quale potremo muoverci per tendere verso altri luoghi. Essendo curiosa di natura, e lettrice per vocazione, poi, non ho potuto fare a meno di prendere in mano i libri analizzati dai modelli per leggerli direttamente e provare a capire se da sola sarei riuscita a notare le cose che i modelli hanno rivelato.
La risposta onesta? Probabilmente qualche cosa sì, ma non tutto: avrei forse notato la pletora di punti esclamativi e di interrogazione usata da Neera (che ho trovato eccessiva e fastidiosa), nonché la tendenza della Marchesa Colombi a usare la virgola prima di una congiunzione, perché mi è stato ribadito tante volte nei corsi di scrittura che è una cosa che proprio non si fa. Il resto però mi sarebbe sfuggito, vuoi perché ci vuole grande esperienza e grande attenzione per notare cose più sottili come la somiglianza di stili tra Colombi e Neera, vuoi perché alcune cose si possono cogliere solo spostando lo sguardo molto in alto, troppo perché i nostri piccoli occhi umani possano cogliere gli schemi sovrastanti.
Ci sono però anche cose che, da lettrice, ho notato e sono invece sfuggite