banner
Centro notizie
Articolato e competente nelle loro competenze.

AutoDistill: una fine

Nov 24, 2023

I ricercatori di Urbana-Champaign e Google dell'Università dell'Illinois introducono AutoDistill, un framework di distillazione di modelli end-to-end completamente automatizzato che integra l'esplorazione dell'architettura del modello e l'ottimizzazione multi-obiettivo per la creazione di modelli di elaborazione del linguaggio naturale preaddestrati efficienti in termini di hardware.

Poiché i modelli linguistici basati sull’intelligenza artificiale continuano ad aumentare di dimensioni, la riduzione dei costi di servizio è diventata un’importante area di ricerca. La distillazione della conoscenza è emersa come un metodo promettente ed efficace per la compressione dei modelli, ma i metodi di distillazione esistenti possono avere difficoltà con il model-serving negli enormi data center di oggi, dove devono affrontare sfide come la gestione di modelli in rapida evoluzione, la considerazione delle prestazioni di servizio e l'ottimizzazione per molteplici obiettivi .

Per affrontare questi problemi, un gruppo di ricerca dell'Università dell'Illinois Urbana-Champaign e Google hanno introdotto AutoDistill, un framework di distillazione di modelli end-to-end completamente automatizzato che integra l'esplorazione dell'architettura del modello e l'ottimizzazione multi-obiettivo per la creazione di modelli pre-addestrati efficienti in termini di hardware. modelli di elaborazione del linguaggio naturale (PNL).

Il team riassume i loro principali contributi come:

AutoDistill è una soluzione end-to-end progettata per generare modelli linguistici preaddestrati ottimizzati e indipendenti dalle attività per le configurazioni hardware di destinazione. AutoDistill prende i requisiti, gli obiettivi e i vincoli degli utenti come input che rappresentano i componenti chiave da considerare, come attività di pre-addestramento, spazi di progettazione del modello, hardware di destinazione, metriche di valutazione, ecc.

Il flusso complessivo di AutoDistill comprende tre fasi principali: esplorazione del modello, distillazione flash e valutazione. L'esplorazione del modello viene utilizzata per cercare modelli compressi migliori considerando lo spazio di progettazione, le metriche di valutazione e i vincoli specificati dall'utente. La distillazione flash viene quindi adottata per far crescere il modello candidato più promettente come modello studentesco che apprende sia dai set di dati di pre-addestramento che dal modello insegnante. Questa fase è anche responsabile della distillazione regolare con lo stesso modello di insegnante ma diverse configurazioni di formazione. Il modello studentesco distillato tramite flash viene quindi valutato sulle attività e sull'hardware target per quanto riguarda l'accuratezza della previsione, l'accuratezza della previsione della frase successiva e le prestazioni dell'hardware. Dopo aver raccolto tutte le metriche desiderate, le informazioni vengono passate alla fase di esplorazione del modello, dove il motore di ricerca seleziona il modello ottimale per l'iterazione successiva.

In particolare, AutoDistill formula la ricerca dell'architettura del modello studentesco come un problema di ottimizzazione della scatola nera, integrando l'algoritmo Bayesian Optimization (BO) e il servizio di ottimizzazione della scatola nera basato su cloud Vizier (Golovin et al., 2017) nel motore di ricerca per l'architettura degli studenti ricerca. I ricercatori possono acquisire feedback hardware validi e precisi misurando il modello dello studente sull'hardware target e sull'ambiente software del data center nella fase di valutazione completamente automatizzata e integrata.

AutoDistill presenta numerosi vantaggi rispetto ai precedenti metodi di ricerca dell'architettura neurale differenziabile (DNAS): 1) Non è necessario spendere enormi sforzi per addestrare preventivamente una grande supernet su attività di pre-addestramento della PNL, 2) Può scalare meglio per gestire uno spazio di progettazione molto più ampio, e 3) può essere facilmente esteso a nuovi obiettivi e nuovi modelli con diverse configurazioni di architettura.

Il team ha condotto esperimenti approfonditi per valutare AutoDistill. Nel benchmark GLUE (General Language Understanding Evaluation) con nove attività di comprensione del linguaggio naturale a valle, AutoDistill ha ottenuto punteggi medi più elevati rispetto a BERTBASE, DistilBERT, TinyBERT6 e MobileBERT con dimensioni del modello significativamente più piccole. Negli esperimenti sull'hardware TPUv4i di Google, i modelli generati da AutoDistill hanno raggiunto una precisione pre-addestrata fino al 3,2% più elevata e un aumento della latenza fino a 1,44 volte rispetto a MobileBERT.

Nel complesso, AutoDistill migliora sia l'accuratezza della previsione che la latenza di servizio sull'hardware di destinazione, indicando la sua promessa e il potenziale per la creazione di modelli NLP preaddestrati efficienti in termini di hardware di prossima generazione.