YANN LECUN E IL PARADOSSO DI MORAVEC
Se davvero vogliamo raggiungere il livello AGI (Artificial General Intelligence), non possiamo limitarci a riprodurre le dinamiche del linguaggio e del pensiero logico astratto, ma dobbiamo concentrarci anche e soprattutto sull’elaborazione dei dati sensoriali che richiedono ingenti risorse computazionali
Massimo Morelli

Yann LeCun
Faccio riferimento a un recente post di Yann LeCun (ricordiamolo, uno dei creatori delle reti neurali convoluzionali e attuale capo della ricerca AI in Meta, non esattamente un rookie) per mettere a fuoco un aspetto che pochi tra noi mortali (non addetti ai lavori AI) hanno ben chiaro. Ma prima ecco i dati riportati da LeCun, e le conclusioni che ne trae.
“Il linguaggio ha una larghezza di banda ridotta: meno di 12 byte/secondo. Una persona può leggere 270 parole/minuto, o 4,5 parole/secondo, ovvero 12 byte/s (assumendo 2 byte per token e 0,75 parole per token). Un LLM moderno viene generalmente addestrato con 1×10^13 token a due byte, ovvero 2×10^13 byte. Per fare lo stesso, una persona avrebbe bisogno di circa 100.000 anni (leggendo per 12 ore al giorno).
La visione ha una larghezza di banda molto più elevata: circa 20 MB/s. Ciascuno dei due nervi ottici ha circa 1 milione di fibre nervose, ciascuna delle quali trasporta circa 10 byte al secondo. Un bambino di 4 anni è mediamente rimasto sveglio per un totale di 16.000 ore, che si traducono in 1×10^15 byte.
In altre parole:
– La larghezza di banda dei dati della percezione visiva è circa 16 milioni di volte superiore alla larghezza di banda dei dati della lingua scritta (o parlata).
– In soli 4 anni, un bambino ha accumulato 50 volte più dati rispetto ai più grandi LLM formati su tutto il testo pubblicamente disponibile su Internet.
Questo ci dice tre cose:
1. Sì, il testo è ridondante e i segnali visivi nei nervi ottici sono ancora più ridondanti (nonostante siano versioni compresse 100x degli output dei fotorecettori nella retina). Ma la ridondanza nei dati è precisamente ciò di cui abbiamo bisogno affinché l’apprendimento autosupervisionato possa rilevare l’architettura strutturale dei dati. Maggiore è la ridondanza, meglio è.
2. La maggior parte della conoscenza umana (e quasi tutta la conoscenza degli animali) deriva dalla nostra esperienza sensoriale del mondo fisico. La lingua è la ciliegina sulla torta. Abbiamo bisogno che la torta sostenga la glassa.
3. Non esiste assolutamente alcuna possibilità di raggiungere un’intelligenza artificiale di livello umano senza che le macchine imparino da input sensoriali a larghezza di banda elevata, come la vista.“
Aggiungo poche parole a commento. Il discorso di Yann LeCun è chiaro: gli LLM si concentrano principalmente sulla funzione linguistica, che però è soltanto uno degli aspetti che caratterizzano l’intelligenza umana. Come dice lui, è la ciliegina sulla torta. Solo che il resto della torta è fatto principalmente di input sensoriali, i quali sono molto più difficili da riprodurre e utilizzare artificialmente.
A tal proposito si parla di solito del paradosso di Moravec, secondo il quale, contrariamente a quanto comunemente si pensa, nel campo dell’intelligenza artificiale e della robotica il linguaggio e il pensiero logico astratto richiedono molte meno risorse computazionali di quante ne richiedano le capacità percettive e sensomotorie.
Identificare l’intelligenza con il linguaggio e il pensiero astratto è un errore comune – molto umano, troppo umano – che però rischia di portarci fuori strada. L’intelligenza umana è embodied, come fa chic dire adesso, ha origine dal corpo e dalle esperienze sensoriali. Non esiste un’intelligenza totalmente disincarnata, o se esiste è qualcosa di cui fanno esperienza pochi eletti e noialtri faremmo bene a rispettare il mistero e stare nel nostro. Per il resto, invece, se davvero vogliamo raggiungere il livello AGI (Artificial General Intelligence), non possiamo limitarci alla ciliegina, ma dobbiamo mettere in forno tutta quanta la torta.