Prova di una gerarchia di codifica predittiva nel cervello umano che ascolta il parlato

Nature Human Behavior volume 7, pagine 430–441 (2023) Cita questo articolo

79k accessi

1167 Altmetrico

Dettagli sulle metriche

Recentemente sono stati compiuti notevoli progressi nell’elaborazione del linguaggio naturale: gli algoritmi di deep learning sono sempre più in grado di generare, riassumere, tradurre e classificare testi. Tuttavia, questi modelli linguistici non riescono ancora a corrispondere alle capacità linguistiche degli esseri umani. La teoria della codifica predittiva offre una spiegazione provvisoria a questa discrepanza: mentre i modelli linguistici sono ottimizzati per prevedere le parole vicine, il cervello umano predirebbe continuamente una gerarchia di rappresentazioni che si estende su più scale temporali. Per testare questa ipotesi, abbiamo analizzato i segnali cerebrali della risonanza magnetica funzionale di 304 partecipanti che ascoltavano racconti. Innanzitutto, abbiamo confermato che le attivazioni dei modelli linguistici moderni si mappano linearmente sulle risposte del cervello al parlato. In secondo luogo, abbiamo dimostrato che potenziare questi algoritmi con previsioni che si estendono su più scale temporali migliora questa mappatura del cervello. Infine, abbiamo dimostrato che queste previsioni sono organizzate gerarchicamente: le cortecce frontoparietali predicono rappresentazioni di livello superiore, a lungo raggio e più contestuali rispetto alle cortecce temporali. Nel complesso, questi risultati rafforzano il ruolo della codifica predittiva gerarchica nell’elaborazione del linguaggio e illustrano come la sinergia tra neuroscienze e intelligenza artificiale possa svelare le basi computazionali della cognizione umana.

In meno di tre anni, il deep learning ha compiuto notevoli progressi nella generazione, traduzione e completamento del testo1,2,3,4 grazie ad algoritmi addestrati con un obiettivo semplice: prevedere le parole dal loro contesto circostante. Sorprendentemente, è stato dimostrato che le attivazioni di questi modelli si mappano linearmente sulle risposte del cervello umano al parlato e al testo5,6,7,8,9,10,11,12. Inoltre, questa mappatura dipende principalmente dalla capacità degli algoritmi di prevedere le parole future7,8, suggerendo quindi che questo obiettivo è sufficiente per farle convergere verso calcoli simili a quelli del cervello.

Tuttavia, persiste un divario tra gli esseri umani e questi algoritmi: nonostante i considerevoli dati di formazione, gli attuali modelli linguistici sono messi alla prova dalla generazione di storie lunghe, dalla sintesi, dal dialogo coerente e dal recupero delle informazioni13,14,15,16,17; non riescono a catturare diversi costrutti sintattici e proprietà semantiche18,19,20,21,22 e la loro comprensione linguistica è superficiale19,21,22,23,24. Ad esempio, tendono ad assegnare erroneamente il verbo al soggetto in frasi annidate come "le chiavi che l'uomo tiene SONO qui"20. Allo stesso modo, quando la generazione del testo è ottimizzata solo sulla previsione della parola successiva, i modelli linguistici profondi generano sequenze blande e incoerenti o rimangono bloccati in cicli ripetitivi13.

La teoria della codifica predittiva25,26,27 offre una potenziale spiegazione a queste carenze; mentre i modelli del linguaggio profondo sono per lo più sintonizzati per prevedere la parola successiva, questo quadro suggerisce che il cervello umano fa previsioni su più scale temporali e livelli di rappresentazioni attraverso la gerarchia corticale28,29 (Fig. 1a).

Lavori precedenti avevano già evidenziato previsioni del parlato nel cervello correlando la sorpresa di una parola o fonetica, cioè la misura in cui ci si aspetta una parola o un telefono, con la risonanza magnetica funzionale (fMRI)30,31,32,33, l'elettroencefalografia34,35, 36, magnetoencefalografia37 ed elettrocorticografia11,38. Tuttavia, tali stime sorprendenti derivano da modelli addestrati a prevedere la parola o il fonema successivo e a ridurre il loro risultato a un singolo numero, ovvero la probabilità del token successivo. Di conseguenza, la natura delle rappresentazioni previste e la loro portata temporale sono in gran parte sconosciute.

In questo studio affrontiamo questi problemi analizzando i segnali cerebrali di 304 individui che ascoltano racconti mentre la loro attività cerebrale viene registrata con la fMRI39. Dopo aver confermato che gli algoritmi del linguaggio profondo si mappano linearmente sull'attività cerebrale6,8,40, dimostriamo che il potenziamento di questi modelli con previsioni a lungo raggio e multilivello migliora tale mappatura del cervello. Criticamente, e in linea con la teoria della codifica predittiva, i nostri risultati rivelano un’organizzazione gerarchica delle previsioni linguistiche nella corteccia, in cui le aree più alte predicono le rappresentazioni più distanti e di livello più alto.

1 would indicate that the model lacks brain-like forecast. The peak of \({{{{\mathcal{F}}}}}^{d}\) indicates how far off in the future the algorithm would need to forecast representations to be most similar to the brain./p> 6) than low-level language areas (for example, k* < 6 in Heschl's gyri/sulci, aSTS; Fig. 3a,b). The difference between regions, while small on average, was highly significant across individuals (for example, between the angular and Heschl's gyri: Δk* = 2.5 ± 0.3, P < 0.001) and observed in both the left and right hemispheres (Fig. 3b)./p>2% gain in the IFG and angular/supramarginal gyri on average, all P < 0.001). On the other hand, auditory areas and lower-level brain regions do not significantly benefit from such a high-level objective (Fig. 5 and Supplementary Fig. 7). These results further strengthen the role of frontoparietal areas in predicting long-range, contextual and high-level representations of language./p> 0.01)./p>