La nuova configurazione di Meta AI rivela la struttura e l'evoluzione dei trasformatori

In un nuovo articolo Birth of a Transformer: A Memory Viewpoint, un gruppo di ricerca sulla Meta AI introduce una nuova configurazione sintetica per esplorare la struttura e l'evoluzione dei modelli linguistici dei trasformatori, con l'obiettivo di fornire approfondimenti sull'apprendimento globale rispetto a quello contestuale degli LLM.

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato una forte capacità di apprendere grandi quantità di conoscenza "globale" dai dati di formazione e hanno mostrato la capacità di adattarsi rapidamente a nuove informazioni sulla base di determinati contesti o suggerimenti. Nonostante le loro impressionanti capacità di apprendimento “nel contesto”, i loro meccanismi interni rimangono poco esplorati, ponendo una minaccia alla loro affidabilità per le applicazioni del mondo reale.

Nel nuovo articolo, Birth of a Transformer: A Memory Viewpoint, il team di ricerca Meta AI introduce una nuova configurazione sintetica per esplorare la struttura e l’evoluzione dei modelli linguistici dei trasformatori. Il loro scopo è fornire approfondimenti sull'apprendimento globale rispetto a quello contestuale dei LLM.

Il team riassume i loro principali contributi come segue:

Il team sviluppa innanzitutto un set di dati sintetico per esplorare il modo in cui i trasformatori sviluppano la conoscenza globale e la capacità di apprendimento nel contesto. Questo set di dati è costituito da modelli linguistici bigram generici, in cui alcuni bigram sono specificati in sequenza. Pertanto, i modelli del trasformatore si basano sull'apprendimento in contesto per ottenere una buona previsione sui bigrammi specifici della sequenza, mentre i bigrammi generali possono essere previsti dalle statistiche globali basate sul token corrente.

Per ottenere una comprensione approfondita del meccanismo contestuale durante la fase di addestramento, i ricercatori semplificano ulteriormente l'architettura a due strati congelando alcuni strati durante l'inizializzazione casuale. Tale semplificazione consente al team di introdurre un modello per matrici di peso individuali come memorie associative, che memorizzano coppie di incorporamenti. Di conseguenza, forniscono una comprensione precisa delle dinamiche di apprendimento.

Nel loro studio empirico, i ricercatori hanno utilizzato SGD mini-batch con slancio per addestrare il loro modello, hanno osservato che le statistiche bigramma globali tendono ad essere apprese più velocemente della testa di induzione e il cambiamento nella distribuzione dei dati influisce notevolmente sulla velocità di acquisizione. apprendimento del contesto.

Forniscono inoltre approfondimenti teorici sulle dinamiche di allenamento, dimostrando che con dati sufficienti, la memoria associativa può filtrare il rumore dagli input; e quando i modelli di attenzione sono quasi uniformi, può recuperare la memoria associativa desiderata.

Nel complesso, questo lavoro fornisce preziose informazioni sulla struttura e sull'evoluzione dei modelli di trasformatore. Il team afferma che il prossimo passo esplorerà il modo in cui i trasformatori sfruttano altri aspetti, come gli incorporamenti di apprendimento, le matrici di query chiave fattorizzate e i livelli feedforward non lineari, per apprendere in contesti più ricchi.

L'articolo Nascita di un trasformatore: un punto di vista della memoria su arXiv.

Autore: Ecate Lui |Editore: Catena Zhang

Sappiamo che non vuoi perderti nessuna notizia o scoperta decisiva della ricerca.Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'IA.

Intelligenza artificiale | Tecnologia e industria | Informazioni e analisi

L'indirizzo email non verrà pubblicato. I campi richiesti sono contrassegnati *

Commento *

Nome

E-mail

Sito web

Avvisami dei commenti successivi tramite e-mail.

Notificami nuovi articoli tramite email.

Autore Editor Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'intelligenza artificiale.