DUE INTELLIGENZE (ARTIFICIALI) SONO MEGLIO DI UNA?
Il connubio tra i due modelli dei sistemi esperti e delle reti neurali potrebbe dar luogo a un importante salto evolutivo in vista dell’Intelligenza Artificiale Generale (AGI) e della Super Intelligenza Artificiale (ASI)

Massimo Morelli

Il sogno della macchina simbolica

Cartesio

Cartesio

Leibniz

Leibniz

Siamo abituati a pensare all’intelligenza artificiale come a un’evoluzione recente, contemporanea, e in un certo senso è così. Tuttavia l’idea, il programma di sviluppo dell’intelligenza artificiale è molto antico. Già nel Seicento Cartesio e Leibniz sognavano di realizzare una ‘macchina simbolica’ che consentisse di combinare i concetti così come la grammatica e la sintassi consentono di combinare correttamente le parole. Da questa macchina simbolica, che Leibniz chiamava ‘caratteristica universale’ e Cartesio ‘ars generalis’, sarebbero discese per inferenza tutte le possibili nozioni disponibili alla conoscenza umana.
 Una macchina simbolica, appunto, una macchina per pensare.
Ma in quell’epoca il ‘meccanicismo’ era una febbre divorante: nel secolo successivo a Cartesio e Leibniz, il Settecento, la sbornia meccanicista darà luogo da un lato agli straordinari automi di De Vaucanson, che erano in grado di eseguire complesse sequenze di azioni programmate (celeberrimi furono un piccolo flautista e un’anatra meccanica che poteva sbattere le ali, bere mangiare e addirittura digerire e defecare), dall’altro al sistema dottrinario di La Mettrie, il più meccanicista tra i filosofi meccanicisti, la cui opera più celebre si intitola, per l’appunto, L’Homme Machine.
Nei decenni e secoli successivi il sogno della macchina simbolica è stato perseguito da una lunga teoria di pensatori, logici, matematici e uomini di scienza. Qualche nome? Boole, Frege, Cantor, Gödel, Turing, e poi ancora Wiener, von Neumann, Shannon, McCarthy, Minsky…. Ma ne sto sicuramente dimenticando alcuni [per chi volesse approfondire questo percorso c’è il magnifico saggio di Martin Davis intitolato per l’appunto Il Calcolatore Universale, edito in Italia da Adelphi nel 2003].

Norebert Wiener

Norbert Wiener

Una svolta importante si è avuta in tempi più recenti con l’avvento della cibernetica, sorta come una fenice dalle ceneri della seconda guerra mondiale. Nel corso delle conferenze organizzate dalla Macy Foundation, Claude Shannon discusse la sua teoria dell’informazione e Norbert Wiener illustrò il principio del circuito a feedback retroattivo, o discesa del gradiente, o retro-propagazione, che è oggi un ingrediente fondamentale del machine learning.

Le due scuole
Venendo ai giorni nostri è importante sottolineare che in realtà non vi è un solo programma di sviluppo dell’intelligenza artificiale, ma ve ne sono almeno due. Potremmo addirittura parlare di due scuole, la prima essendo quella prettamente logico-simbolica dei cosiddetti ‘sistemi esperti’, e la seconda quella statistico-matematica delle reti neurali e del machine learning.
Per chiarire meglio, mi permetto una piccola digressione. A ogni studente di filosofia è stato insegnato che nella storia del pensiero umano due diversi modi di sviluppare un ragionamento si sono contesi il primato. Si tratta da una parte della modalità deduttiva, che discende per via logico-simbolica da alcune premesse o assiomi indubitabili a conclusioni altrettanto certe (il sillogismo aristotelico essendone il caso più elementare), dall’altra della modalità induttiva, che invece risale dall’osservazione dei casi particolari sino alla formulazione di una legge generale. Nel corso dei secoli il conflitto senza esclusione di colpi tra queste due diverse visioni si è addirittura georeferenziato: i fautori della deduzione acquartierandosi principalmente in Francia e Germania (sulle tracce per l’appunto di Cartesio e Leibniz), mentre i favori dei popoli anglosassoni sono andati  all’approccio induttivo (si pensi all’empirismo inglese di Bacone, Locke e Hume).

Bertrand Russell

Bertrand Russell

Naturalmente si tratta di una semplificazione, non è tutto così black and white: ad esempio una delle più divertenti critiche all’approccio induttivista è stata mossa dal grande pensatore inglese Bertrand Russell con la sua ben nota fallacia del tacchino induttivista. Russell si divertiva a raccontare questa storiella: in un grande allevamento un tacchino particolarmente intelligente, avendo notato che ogni giorno all’alba venivano degli uomini a portargli del becchime, ne aveva concluso che questa comparsa quotidiana degli uomini con il cibo doveva essere una modalità tipica di funzionamento del mondo, una sorta di legge universale inderogabile. Legge universale che fu però clamorosamente smentita il giorno di Capodanno, allorché gli stessi uomini che portavano il becchime si presentarono all’alba per tirargli il collo. Amen, riposi in pace il povero tacchino, tirato in ballo solo per testimoniare il feroce sarcasmo spesso suscitato da questo scontro di mentalità.
La cosa interessante è che persino oggi, nel grande alveo delle ricerche sull’intelligenza artificiale, finisce per riproporsi la stessa dicotomia: forzando un po’ le cose possiamo affermare che i modelli di ragionamento simbolico (sistemi esperti) derivano a grandi linee dall’approccio deduttivo, mentre quelli statistico-matematici (reti neurali e machine learning) da quello induttivo. Di nuovo, è una semplificazione, ma del resto tutte le astrazioni concettuali in un certo senso sono delle semplificazioni, che spesso però aiutano a comprendere meglio i fenomeni.
A questo punto vale la pena di soffermarsi un poco sulle caratteristiche distintive di ognuna delle due scuole, o tendenze.

L’intelligenza artificiale simbolica o dei ‘sistemi esperti’

Ed Feigenbaum

Ed Feigenbaum

Nel caso dei ‘sistemi esperti’ – che alcuni chiamano anche intelligenza artificiale ‘simbolica’ o ‘vecchia maniera’ e che è anche la più vecchia delle due scuole (il guru dei sistemi esperti era Ed Feigenbaum, fondatore del Knowledge System Laboratory a Stanford e vincitore del premio Turing nel 1994) – si procede a modellare una base di conoscenza (knowledge base) relativa a una qualche disciplina specifica, poi si passa questa conoscenza ai computer attraverso specifici linguaggi di programmazione e infine si applicano a questa knowledge base dei motori inferenziali (reasoner) basati su versioni speciali della logica formale per ricavarne per l’appunto delle inferenze valide e possibilmente utili a risolvere qualche problema specifico. Questo modus operandi – che ha dato vita, tra l’altro, ai cosiddetti ‘grafi della conoscenza’ (knowledge graph) e alle ontologie del web semantico utilizzate su larga scala anche da Google e Facebook – è tuttora vivo e vegeto soprattutto presso le accademie di tutto il mondo, ma dal punto di vista strettamente commerciale non ha mai veramente sfondato. Sebbene non si possa negare che il web semantico abbia svolto un ruolo importante per i motori di ricerca e in generale per sistemi di gestione dei dati online, per un altro verso i risultati concreti sono stati inferiori alle attese.
I vari sistemi esperti generati nel tempo hanno fatto a fatica a imporsi nei loro rispettivi campi di applicazione. Per citare solo i casi più eclatanti, nell’ambito del riconoscimento, elaborazione e traduzione del linguaggio naturale i sistemi esperti sono stati letteralmente surclassati dalle reti neurali. E lo stesso dicasi per il riconoscimento delle immagini, per il quale è stato decisivo l’avvento delle cosiddette ‘reti neurali convoluzionali‘ (CNN).
Uno dei principali problemi che affliggono i sistemi esperti consiste nel fatto che modellare un qualunque dominio di conoscenza, anche se a farlo è il migliore esperto disponibile su piazza, e trasferirlo a un calcolatore, per quanto potente esso sia e per quanto sofisticati siano i linguaggi di sviluppo applicati, non è affatto semplice. C’è sempre qualcosa che sfugge, che si sottrae al processo di modellazione e che alla fine impedisce di conseguire il livello di expertise desiderato. Inoltre, i risultati prodotti dall’intervento dei motori inferenziali sono spesso imprevisti, interessanti, ma non sempre idonei a risolvere dei problemi concreti in via definitiva.
Il mondo reale sembra troppo complesso e articolato per essere modellato adeguatamente con i mezzi della logica simbolica. Ma non è ancora detta l’ultima parola.

L’intelligenza artificiale statistico-matematica
La svolta epocale si è avuta quando invece di modellare interi domini di conoscenza si è pensato di concentrarsi direttamente sui problemi concreti analizzando delle grandi base-dati (spesso ricavate da internet) con gli strumenti della statistica e dell’ottimizzazione matematica, alla ricerca di correlazioni significative. Inoltre, applicando opportunamente a queste analisi statistico-matematiche la struttura formale delle reti neurali (ispirata alle reti neuronali del sistema nervoso umano) e la metodologia cibernetica della retroazione negativa (o discesa del gradiente) si è riusciti a far sì che le macchine fossero in grado di autocorreggersi, dando vita al fenomeno dell’apprendimento automatizzato o machine learning.
La differenza fondamentale è che mentre nell’AI vecchia scuola al centro di tutto c’è la capacità umana di modellare il dominio di conoscenza, qui c’è invece la mole e l’affidabilità dei dati a disposizione, mentre la competenza specialistica umana viene messa in un certo senso da parte. Il primo a intraprendere questa strada fu Frederik Jelinek, direttore di un team dell’IBM dedicato a risolvere i problemi di riconoscimento del linguaggio naturale e di traduzione automatica; egli si accorse che per conseguire quei risultati invece di chiedere ai linguisti di definire sempre più stringenti norme grammatico-lessicali da trasferire ai computer, era più produttivo analizzare l’utilizzo effettivo del linguaggio naturale ricavandone delle correlazioni statistiche. È celebre la sua esclamazione: “ogni volta che licenzio un linguista l’algoritmo migliora!”
A quanto pare aveva ragione, visto che come sappiamo questo filone di ricerca ha conseguito risultati straordinari, fino a innescare l’attuale esplosione dei Large Language Models e dell’AI generativa (su tutta questa vicenda si veda l’ottimo saggio La scorciatoia, pubblicato quest’anno da Nello Cristianini per i tipi del Mulino).
In realtà questa rivoluzione sembra essere ancora ai suoi esordi e molti pensano ci possa condurre in un tempo relativamente breve all’Intelligenza Artificiale Generale (AGI, livello umano) e addirittura alla Super Intelligenza Artificiale (ASI, superiore al livello umano).
Tutto è possibile, ma dobbiamo sottolineare che anche la scuola dell’intelligenza artificiale ‘statistico-matematica’ si trova a fronteggiare seri problemi. Uno, forse il più noto, riguarda la necessità di liberare le base-dati su cui questi sistemi vengono istruiti da eventuali bias cognitivi, ad esempio il bias anti-etico della discriminazione razziale o di genere. Non è facile:  qualche tempo fa OpenAI ha assunto un’azienda kenyota perché si occupasse di filtrare i contenuti tossici dai dati di training, ma dopo tre mesi la stessa azienda ha rimesso il mandato perché i suoi operatori avevano sviluppato disturbi psicologici dovuti alla continua esposizione a nequizie di ogni tipo: brutalità, abusi, espressioni di odio, ecc. La spazzatura non è facile da eliminare, ma molti ritengono che questo problema sarà se non risolto, perlomeno molto migliorato col tempo.
Un’altra problematica riguarda il numero dei parametri considerati: com’è noto, una delle possibili strategie per migliorare le prestazioni di una rete neurale consiste nell’aumentare il numero dei parametri considerati: in questo modo il sistema diventa molto preciso nell’analizzare la singola situazione ma meno abile nel generalizzare. È un problema noto come overfitting, o eccessiva adesione al caso singolo. Per risolverlo,  si procede di solito a semplificare il modello (come nel caso delle reti a convoluzione) diminuendo il numero dei parametri e costringendo il sistema a generalizzare, ad astrarre di più. Spesso questa strategia solutiva funziona, ma va detto che non è sempre agevole trovare il giusto punto di equilibrio. Nel caso delle norme etiche, ad esempio, questo bilanciamento tra generalizzazione e considerazione del dettaglio è particolarmente complesso da realizzare. Le aree critiche sono molte e molto più complesse, ma per il momento è sufficiente tenere in considerazione le due problematiche appena citate.

La convergenza possibile

Yann LeCun

Yann LeCun

Come s’è visto, nell’ambito dell’intelligenza artificiale l’orientamento statistico-matematico è oggi vincente su tutta la linea. Bisogna però sottolineare che anche la scuola dell’intelligenza artificiale simbolica o ‘vecchia maniera’ è tutt’altro che defunta, soprattutto in ambito accademico, e anzi continua a elaborare interessanti soluzioni teoriche e tecnologiche.
E c’è chi, come Yann LeCun, uno dei creatori delle reti neurali convoluzionali e attuale capo della ricerca AI di Meta, ritiene che il vero e proprio salto quantico verso l’Intelligenza Artificiale Generale sarà compiuto quando le due scuole riusciranno a trovare un’area di applicazione comune: si dice sempre che i Large Language Models si esprimono attraverso il linguaggio naturale senza comprendere il significato delle loro proposizioni, e allora ecco che proprio i sistemi di ragionamento simbolico possono aiutarli a ‘capire’ . Secondo Yann LeCun, per conseguire il livello AGI o ASI è necessario riuscire a integrare entrambe le forme di ragionamento, quella statistico-matematica e quella inferenziale simbolica.

Large Language Model e Knowledge Graph: vantaggi e svantaggi

Large Language Model e Knowledge Graph: vantaggi e svantaggi. Tratto da ‘Unifying Large Language Models and Knowledge Graphs: A Roadmap’, citato.

Laddove i Large Language Model sono fortissimi nell’elaborazione del linguaggio naturale ma soggetti ad ‘allucinazioni’ e carenti nella comprensione dei significati soggiacenti, i sistemi di ragionamento simbolico come quelli basati sui Knowledge Graph possono ovviare a tali difetti con le loro conoscenze strutturate di dominio e la loro accuratezza e interpretabilità semantica. All’inverso, i sistemi simbolici che sono forti nella modellazione dei domini di conoscenza, ma risultano spesso incompleti e hanno problemi con l’elaborazione del linguaggio naturale, possono essere corretti dall’efficienza degli LLM proprio in questi ambiti [si veda in proposito Shirui Pan, Linhao Luo, Yufei Wang, Chen Chen, Jiapu Wang, Xindong Wu, Unifying Large Language Models and Knowledge Graphs: A Roadmap, arXiv:2306.08302v2 [cs.CL] 20 Jun 2023].
Alcuni esperimenti in questa direzione sono già in corso, sia che si tratti di sistemi simbolici potenziati dagli LLM, sia invece di LLM potenziati dai sistemi simbolici. Recentemente ho chiesto alla mia AI generativa preferita, ovvero Claude di Anthropic, quali fossero i suoi principali elementi costitutivi, e Claude ha menzionato anche dei sistemi di symbolic reasoning. Quando però ho cercato di saperne di più, di capire quale fosse la natura di questi modelli simbolici, Claude è diventato sfuggente. Forse mi sono spinto troppo oltre, non posso chiedere ai grandi chef di svelarmi i segreti delle ricette grazie alle quali hanno preso le stelle Michelin.
Ha ragione Yann LeCun nell’attendersi un salto evolutivo fondamentale proprio dal connubio di queste due diverse ‘scuole’ di intelligenza artificiale? Vista la velocità degli sviluppi in atto, non dovremo attendere molto per scoprirlo.

Nota: uno speciale ringraziamento va agli amici e maestri Gianni Guglielmi, Vincenzo Lombardo e Roberto Marchisio, per gli spunti e le spiegazioni elargitemi nel corso del tempo, che naturalmente mi auguro di non aver travisato.