La svolta di OpenAI sulle allucinazioni dell'intelligenza artificiale è un passo indietro per l'intelligenza artificiale nel suo complesso

I grandi modelli linguistici che seguono le istruzioni, come ChatGPT di OpenAI, e sistemi rivali come Bard di Google e Claude di Anthropic, hanno il potenziale per rivoluzionare il business. Ma molte aziende hanno difficoltà a capire come utilizzarli. Ciò è dovuto principalmente al fatto che sono inaffidabili e inclini a fornire informazioni apparentemente autorevoli ma imprecise. È anche perché il contenuto generato da queste modalità di intelligenza artificiale può comportare rischi. Possono produrre un linguaggio tossico o incoraggiare gli utenti a intraprendere comportamenti non sicuri o illegali. Possono rivelare dati che le aziende desiderano salvaguardare. Decine di aziende stanno correndo per capire come risolvere questo problema e c'è una pentola d'oro per chi arriva per primo.

La settimana scorsa, OpenAI ha pubblicato un documento di ricerca e un post sul blog di accompagnamento sostenendo ciò che affermava essere un passo avanti potenzialmente importante verso tale obiettivo, nonché verso la risoluzione del più ampio "problema di allineamento". Il “problema di allineamento” si riferisce a come infondere nei potenti sistemi di intelligenza artificiale la comprensione dei concetti e dei valori umani. I ricercatori che lavorano nel campo noto come “AI Safety” lo considerano fondamentale per garantire che il futuro software di intelligenza artificiale non rappresenti una minaccia a livello di estinzione per l’umanità. Ma, come spiegherò, penso che la soluzione proposta da OpenAI dimostri effettivamente quanto siano limitati i grandi modelli linguistici di oggi. A meno che non arriviamo a un’architettura fondamentalmente diversa per l’intelligenza artificiale generativa, è probabile che la tensione tra “allineamento” e “prestazioni” significherà che la tecnologia non sarà mai all’altezza del suo pieno potenziale. In effetti, si potrebbe sostenere che la formazione degli LLM nel modo in cui OpenAI suggerisce nella sua ultima ricerca sia un passo indietro per il settore.

Per spiegare il perché, esaminiamo cosa ha mostrato l'ultima ricerca di OpenAI. Innanzitutto, è necessario capire che un modo in cui i ricercatori hanno cercato di domare i risultati selvaggi di grandi modelli linguistici è attraverso un processo chiamato apprendimento per rinforzo dal feedback umano (o RLHF in breve). Ciò significa che gli esseri umani valutano le risposte prodotte da un LLM, di solito solo un semplice pollice su o pollice giù (anche se alcune persone hanno sperimentato sistemi di feedback meno binari) e il LLM viene quindi messo a punto per produrre risposte che hanno maggiori probabilità di essere valutato positivamente. Un altro modo per convincere i LLM a produrre risposte di migliore qualità, soprattutto per compiti come domande di logica o matematica, è chiedere al LLM di "ragionare passo dopo passo" o "pensare passo dopo passo" invece di produrre semplicemente una risposta finale. Il motivo esatto per cui questa cosiddetta "catena di pensiero" funziona non è del tutto chiaro, ma sembra produrre costantemente risultati migliori.

Ciò che OpenAI ha fatto nella sua ultima ricerca è stato vedere cosa è successo quando a un LLM è stato detto di utilizzare il ragionamento a catena di pensiero ed è stato anche addestrato utilizzando RLHF su ciascuno dei passaggi logici della catena (invece che sulla risposta finale). OpenAI ha chiamato questa “supervisione del processo” in contrapposizione alla “supervisione dei risultati” utilizzata in precedenza. Bene, si scopre, forse non a caso, che dare feedback su ogni passaggio produce risultati molto migliori. Puoi pensare a questo come a come il tuo insegnante di matematica delle scuole medie ti ha sempre ammonito di "mostrare il tuo lavoro" agli esami. In questo modo potrebbe vederti se capisce il ragionamento necessario per risolvere la domanda e potrebbe darti un credito parziale anche se hai commesso un semplice errore aritmetico da qualche parte nel processo.

Ci sono solo un paio di problemi. Innanzitutto, come hanno sottolineato altri ricercatori, non è chiaro se questa "supervisione del processo" aiuterà con l'intera gamma di allucinazioni esibite dai LLM, in particolare quelle che coinvolgono citazioni inesistenti e citazioni imprecise, o se affronta solo un sottoinsieme di imprecisioni. che coinvolgono la logica. Sta diventando sempre più chiaro che il tentativo di allineare i LLM per evitare molti dei risultati indesiderati che le aziende temono potrebbero dover comportare un ripensamento molto più fondamentale del modo in cui questi modelli vengono costruiti e addestrati.

Infatti, un gruppo di scienziati informatici israeliani dell’Università Ebraica e degli AI21 Labs, ha recentemente esplorato se RLHF fosse un metodo di allineamento robusto e ha riscontrato seri problemi. In un articolo pubblicato questo mese, i ricercatori hanno affermato di aver dimostrato che per qualsiasi comportamento che un modello di intelligenza artificiale potrebbe mostrare, non importa quanto improbabile, esisteva un suggerimento che poteva suscitare quel comportamento, mentre comportamenti meno probabili richiedevano semplicemente suggerimenti più lunghi. "Ciò implica che qualsiasi processo di allineamento che attenua il comportamento indesiderato ma non lo rimuove del tutto, non è sicuro contro gli attacchi provocati dall'avversario", hanno scritto i ricercatori. Quel che è peggio, hanno scoperto che tecniche come RLHF in realtà rendono più semplice spingere un modello a mostrare comportamenti indesiderati, non meno probabili.