I ricercatori del MIT realizzano modelli linguistici auto-scalabili

Immagine precedente Immagine successiva

Socrate una volta disse: "Non è la dimensione di una cosa, ma la qualità che conta veramente. Perché è nella natura della sostanza, non nel suo volume, che si trova il vero valore".

Le dimensioni contano sempre per i modelli linguistici di grandi dimensioni (LLM)? In un panorama tecnologico abbagliato dai LLM al centro della scena, un team di ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ritiene che i modelli più piccoli non dovrebbero essere trascurati, soprattutto per i prodotti di comprensione del linguaggio naturale ampiamente utilizzati nel settore.

A tal fine, i ricercatori hanno elaborato un approccio ai problemi di lunga data di inefficienza e privacy associati a grandi modelli di intelligenza artificiale basati su testo: un modello sensibile alla logica che supera le controparti 500 volte più grandi in alcuni compiti di comprensione del linguaggio senza l’intervento umano. annotazioni generate, preservando privacy e robustezza con prestazioni elevate.

Gli LLM, che hanno mostrato alcune capacità promettenti nella generazione di linguaggio, arte e codice, sono costosi dal punto di vista computazionale e i loro requisiti di dati possono rischiare perdite di privacy quando si utilizzano le interfacce di programmazione delle applicazioni per il caricamento dei dati. I modelli più piccoli sono stati storicamente meno capaci, in particolare nelle attività multitasking e scarsamente supervisionate, rispetto alle loro controparti più grandi.

Quindi cosa aiuta questi modelli più piccoli ad agire in modo così potente? Qualcosa chiamato "implicazione testuale", un modo per aiutare questi modelli a comprendere una varietà di compiti linguistici, dove se una frase (la premessa) è vera, allora è probabile che anche l'altra frase (l'ipotesi) sia vera. Ad esempio, se la premessa è "tutti i gatti hanno la coda", allora l'ipotesi "un gatto soriano ha una coda" sarebbe implicata dalla premessa. Questo concetto viene utilizzato per addestrare un "modello di coinvolgimento" che si è rivelato meno distorto rispetto ad altri modelli linguistici, dalla precedente ricerca del team. Hanno quindi creato dei "suggerimenti" che i modelli possono utilizzare per capire se determinate informazioni sono contenute in una determinata frase o frase in base a compiti diversi. Questo metodo ha migliorato la capacità del modello di adattarsi a compiti diversi senza alcuna formazione aggiuntiva, nota come zero -adattamento del tiro.

Nell'ambito della "comprensione del linguaggio naturale", esistono varie applicazioni che dipendono dalla determinazione della relazione tra due parti di testo. Ad esempio, nella classificazione dei sentimenti, un'affermazione come "Penso che il film sia bello" può essere dedotta o implicata da una recensione di un film che dice "Mi piace la storia e la recitazione è fantastica", indicando un sentimento positivo. Un'altra è la classificazione delle notizie, in cui l'argomento di un articolo di notizie può essere dedotto dal suo contenuto. Ad esempio, un'affermazione come "l'articolo riguarda lo sport" può essere inclusa se il contenuto principale dell'articolo riguarda una partita della NBA. L'intuizione chiave è stata che molti compiti esistenti di comprensione del linguaggio naturale potrebbero essere riformulati come compiti di implicazione (cioè inferenza logica nel linguaggio naturale).

"La nostra ricerca mira a migliorare la capacità dei programmi informatici di comprendere ed elaborare il linguaggio naturale, il modo in cui gli esseri umani parlano e scrivono. I nostri modelli di coinvolgimento autoaddestrati da 350 milioni di parametri, senza etichette generate dall'uomo, superano i modelli linguistici supervisionati con 137 a 175 miliardi di parametri", afferma Hongyin Luo, postdoc del MIT CSAIL, autore principale di un nuovo articolo sullo studio. "Ciò ha il potenziale per rimodellare il panorama dell'intelligenza artificiale e dell'apprendimento automatico, fornendo una soluzione più scalabile, affidabile ed economica per la modellazione del linguaggio", afferma Luo. "Dimostrando che i modelli più piccoli possono funzionare allo stesso livello di quelli più grandi per quanto riguarda la comprensione del linguaggio, questo lavoro apre la strada a tecnologie di intelligenza artificiale più sostenibili e che preservano la privacy."

Il team ha scoperto che sarebbe possibile migliorare ulteriormente le prestazioni del modello utilizzando una tecnica chiamata "autoapprendimento", in cui il modello utilizza le proprie previsioni per apprendere da solo, imparando in modo efficace senza supervisione umana e dati di addestramento aggiuntivi annotati. prestazioni significativamente migliorate su una serie di attività downstream, tra cui l'analisi del sentiment, la risposta alle domande e la classificazione delle notizie. Ha sovraperformato sia LaMDA che FLAN di Google in termini di funzionalità zero-shot, modelli GPT e altri algoritmi supervisionati.