Hai mai aperto Netflix alla fine di una lunga giornata, passando interi quarti d’ora a sfogliare il catalogo senza trovare nessuna serie e nessun film che ti convinca?
Al contrario, invece, scrollare su Tiktok è un’attività molto più appagante e il tempo su questo social passa velocissimo. Siamo infatti spesso risucchiati da un’infinità di video di gattini, videogiochi, deep fake, che ci tengono incollati allo schermo dello smartphone, tanto da chiederci quale superpotere usino negli uffici di Tiktok!
In tutte queste situazioni, possiamo dare il merito, o la colpa, agli algoritmi di raccomandazione delle piattaforme digitali!
In questo articolo ti racconterò qual è la tecnologia e l’ingegneria dietro piattaforme che usiamo ogni giorno, da quelle multimediali come Netflix, Youtube, Spotify, a quelle prettamente social come Instagram o Tiktok. Il tutto si basa su algoritmi di raccomandazione: ogni piattaforma ha i propri diversi modelli e applica delle policy aziendali.
Ma che cos’è un algoritmo?
Avrai sicuramente pensato frasi come “L’algoritmo di tiktok mi conosce fin troppo bene, mi ascolta: mi escono solo video di esperimenti, proprio oggi che ho la verifica di scienze”.
E’ una parola che sentiamo citare spesso, ma siamo sicuri di sapere davvero che cosa significhi “algoritmo”?
Un algoritmo è un flusso di istruzioni che da un input (informazione iniziale) portano ad un output (il risultato). Un insieme di procedure che, se seguite step-by-step, risolvono un problema o calcolano un risultato. I computer seguono moltissimi algoritmi per funzionare e ognuno è il responsabile di qualcosa, come per esempio l’apertura di una finestra del browser. Ma anche una ricetta o un tutorial di makeup sono, se ci pensiamo bene, nient’altro che degli algoritmi.
Ora ritorniamo alle piattaforme digitali, qui gli algoritmi sono algoritmi di machine learning (ML), in italiano “apprendimento automatico”. Il ML, che è un sottoinsieme dell’intelligenza artificiale, studia come sviluppare sistemi che imparino da dati forniti come addestramento, in grado di funzionare e prendere decisioni non seguendo delle istruzioni esplicite, ma usando algoritmi e metodi statistici. Le applicazioni di machine learning diventano più accurate man mano che vengono usate, perché a ogni utilizzo aumentano i dati a cui hanno accesso e da cui possono apprendere.
Questi algoritmi vengono addestrati per far emergere correlazioni fra dati e per formulare previsioni sulla base dell’analisi della correlazione, che per semplicità possiamo intendere come somiglianza fra dati di partenza.
Qual è l’obiettivo dei sistemi di raccomandazione?
I media d’intrattenimento sfruttano proprio alcuni modelli di machine learning che, analizzando le preferenze degli utenti, riescono a proporre contenuti che non si discostano troppo dalle nostre scelte abituali. Gli input di questi modelli sono, ad esempio, i contenuti con cui interagiamo più spesso, e gli output saranno liste di serie tv, film, canzoni, podcast, video che ci piacciono di più, o almeno che dovrebbero farlo.
Ma perchè tutto questo?
Queste piattaforme fanno della personalizzazione la loro caratteristica principale. In linguaggio tecnico la chiamiamo user experience unica: l’utente deve poter godere di una permanenza piacevole sull’app, facile, che lo invogli a starci di più e nei media di intrattenimento tutto ciò si raggiunge anche con la possibilità di far scegliere implicitamente all’utente i contenuti da divorare.
Per alcune aziende, come Youtube e Instagram, è cruciale individuare il pubblico giusto per ogni video.
Tiktok e Spotify, invece, hanno come obiettivo ulteriore quello di permettere a ciascun utente di scoprire video, content creator e artisti nuovi, che potrebbero piacergli ma anche no, entrare in contatto con ciò che già ameranno e scoprire al contempo qualcosa di nuovo.
Ecco perchè su Tiktok è più facile andare virali rispetto a Instagram!
Questi elementi hanno un unico principale scopo, farci stare sull’app il maggior tempo possibile. Più efficace e addestrato sarà l’algoritmo di raccomandazione, più noi utenti saremo invogliati a spendere il nostro tempo sulla piattaforma, che sia in una sessione di scrolling infinito su Tiktok o durante una visione di un film su Netflix.
Capirai bene perché le aziende dietro i nostri social media preferiti spendono tanto budget proprio nella ricerca e sviluppo di algoritmi di ML all’avanguardia, potenti ma anche etici. Sono coinvolti interi settori interni alle aziende che uniscono informatica, statistica, AI, ma anche scienze sociali, psicologia ed economia, un approccio multidisciplinare per individuare dataset di partenza, sviluppare i migliori modelli e creare esperienze uniche per gli utenti.
I segnali di input
I dati con cui gli algoritmi vengono addestrati sono proprio i nostri, ovviamente. Si chiamano segnali di input. Dal primo utilizzo in poi, vengono automaticamente creati “ i profili di gusto” di ogni utente , che contengono i suoi interessi, cosa gli piace di più ascoltare e vedere, con quali contenuti interagisce di più. Per fare un esempio, se di solito ascolti musica pop e cantautorato in lingua inglese, non è un caso se la tua playlist Spotify “Daily Mix” conterrà Taylor Swift, Sabrina Carpenter, Gracie Adams e Olivia Rodrigo. Prendendo in prestito un termine dalla statistica, diciamo che queste artiste sono “correlate”. Ci sono anche altre informazioni importanti: lingua, età e posizione generica dell’utente, ma anche tendenze del momento e “cosa piace agli altri”.
Anche le nostre interazioni minuto per minuto giocano un fattore fondamentale: Tiktok ad esempio sfrutta un algoritmo molto potente in questo. Ogni nostro micro-movimento sull’app è un segnale che, unito agli altri, riesce a prevedere contenuti che potrebbero piacerci, e altri che vorremmo skippare: quanto tempo rimaniamo a guardare un video, se lo ricominciamo da capo, se clicchiamo sul profilo del creator, se interagiamo con like, commenti o con un follow.
“Tanti” machine learning
Abbiamo visto che ogni piattaforma social sfrutta modelli di machine learning diversi e applica delle regole diverse. Non esiste infatti un solo modo con cui le macchine “apprendono”, così come ogni studente ha un proprio metodo di studio: c’è chi parte dalla pratica e da esempi per poi capire meglio la teoria, chi ha bisogno di leggere più volte prima di capire, chi studia ripetendo e chi facendo riassunti scritti. Insomma, anche i computer hanno le loro esigenze! Ecco alcune classi di apprendimento:
- Supervised learning (apprendimento supervisionato): per allenare il modello a riconoscere e interpretare dati, questi arrivano già con “la risposta giusta”. Vengono infatti forniti degli esempi etichettati, ovvero degli input e i rispettivi output etichettati dall’uomo. Ciò gli permette di prevedere degli output corretti quando verranno forniti degli input non etichettati. Un computer allenato così impara, per esempio, a riconoscere se una mail è spam o meno, perchè nella fase di addestramento ha osservato tante mail etichettate con “questa mail è spam” o con “questa mail non è spam”.
- Unsupervised learning (apprendimento non supervisionato): la macchina riceve dati senza etichette e deve capire da sola come organizzarli, cercando tra loro somiglianze, differenze, pattern nei dati. È come quando da piccoli alcune informazioni ci venivano raccontate dai nostri genitori, ma ne abbiamo apprese tante altre da soli, con la nostra esperienza.
- Semi-supervised learning: una via di mezzo, pochi dati etichettati e tanti senza etichette. Il modello usa i primi come guida, ma sfrutta anche tutti gli altri per imparare meglio.
Questi diversi stili di apprendimento non sono compartimenti stagni: spesso vengono combinati insieme. Ad esempio, le piattaforme di intrattenimento usano tecniche supervisionate quando vogliono prevedere se ti piacerà un contenuto, unsupervised quando vogliono scoprire gruppi di utenti simili.
Tecniche di raccomandazione
Le precedenti famiglie di apprendimento contengono al loro interno delle tecniche più specifiche per filtrare, scegliere, ordinare dati e che sono usate dagli algoritmi delle piattaforme multimediali che conosciamo. Eccone alcuni più rilevanti:
-
Collaborative Filtering
Si basa sul concetto che se due persone mostrano gusti simili, allora quello che uno ha già visto o ascoltato può essere suggerito anche all’altro. Insomma, se tu e una tua amica ascoltate entrambi Arctic Monkeys e Imagine Dragons, e lei ascolta anche i The Strokes mentre tu no, Spotify potrebbe proporti i The Strokes perché “siete simili”.
A volte questo calcolo è fatto in modo supervisionato, per predire, altre volte in modo non supervisionato.
-
Content-Based Filtering
Guarda direttamente dentro il contenuto. Qui l’algoritmo cerca di capire le caratteristiche intrinseche di ciò che guardi o ascolti: il genere di un film, il ritmo e la tonalità di una canzone, i tag e la descrizione di un video.
Se l’algoritmo costruisce un classificatore che predice “ti piacerà / non ti piacerà” basandosi su queste caratteristiche, siamo nel campo del supervised learning: in pratica il modello impara dai dati già etichettati (piace/non piace).
Se invece l’algoritmo non ha etichette ma cerca solo di organizzare meglio i dati, ad esempio calcolando quali brani sono simili in base a formule matematiche, allora ci muoviamo in un territorio più vicino all’unsupervised learning.
-
Deep Learning ed Embeddings
Qui entriamo davvero nel cuore dell’algoritmica moderna di colossi come Netflix. L’idea è trasformare sia gli utenti sia i contenuti in numeri, chiamati vettori o embeddings. Questi numeri vivono in uno spazio matematico dove la distanza fra due punti rappresenta la somiglianza: se due canzoni sono vicine, vuol dire che hanno caratteristiche simili; se un utente è vicino a un certo film, è probabile che gli piacerà. Immagina questo spazio davvero come fatto di punti!
La fase di addestramento è quasi sempre supervisionata: il modello impara osservando il comportamento reale degli utenti, ad esempio se hanno cliccato su un video, se hanno ascoltato una canzone fino in fondo o se hanno skippato dopo pochi secondi.
Si parla di “apprendimento supervisionato implicito”: le etichette non le crea un umano, ma nascono automaticamente dalle azioni degli utenti. In questo modo, ogni click, ogni skip e ogni minuto di visione diventa un dato utile per far crescere il modello.
-
Ranking Multi-Obiettivo
L’ultimo pezzo del puzzle è il ranking multi-obiettivo, che decide non solo cosa proporti, ma anche in che ordine farlo comparire nel tuo feed o nella tua home. Qui l’algoritmo non si limita a chiedersi: “Ti piacerà questo contenuto?”. La domanda è molto più complessa: “Lo guarderai fino alla fine?”, “Ti farà restare più tempo sulla piattaforma?”, “È un contenuto sicuro e adatto?”, “Aiuta a mantenere la varietà?”.
Per gestire tutti questi obiettivi insieme si usano modelli supervisionati, spesso in versione multi-task learning: un’unica rete neurale è addestrata a bilanciare più compiti contemporaneamente. È un po’ come uno studente che deve prepararsi per l’esame di Maturità. Deve ripassare più materie nello stesso tempo , cercando di non trascurarne nessuna e classificando gli argomenti come prioritari o meno prioritari. Alla fine, l’algoritmo ordina i contenuti in base a una combinazione di fattori, così che quello che vedi per primo abbia la massima probabilità di catturarti.
La ricetta per andare virale sui social purtroppo non ce l’ha nessuno. Le aziende citate in questo articolo infatti non rendono pubblici i loro modelli, perché un modello che funziona, è una risorsa molto preziosa, un asset che costa miliardi. Equivale a tanti utenti soddisfatti, che interagiscono con i contenuti degli altri, ne creano di propri, cliccano sulle pubblicità e potenzialmente entrano in uno scrolling infinito.
Noi non siamo passivi in tutto questo! Avrai notato che è possibile classificare un contenuto con “non mi interessa”, oppure “non mostrarmi più contenuti come questo”.
Dopo questo articolo, forse sai quanto è prezioso il tuo feedback