banner
Centro notizie
Articolato e competente nelle loro competenze.

Sistema sanitario

May 24, 2023

Natura (2023) Cita questo articolo

18k accessi

604 Altmetrico

Dettagli sulle metriche

Ogni giorno i medici prendono decisioni critiche in tempi limitati. I modelli predittivi clinici possono aiutare i medici e gli amministratori a prendere decisioni prevedendo eventi clinici e operativi. I modelli predittivi clinici strutturati basati su dati esistenti hanno un uso limitato nella pratica quotidiana a causa della complessità nell’elaborazione dei dati, nonché nello sviluppo e nell’implementazione dei modelli1,2,3. Qui mostriamo che le note cliniche non strutturate della cartella clinica elettronica possono consentire la formazione di modelli di linguaggio clinico, che possono essere utilizzati come motori predittivi clinici multiuso con sviluppo e implementazione a bassa resistenza. Il nostro approccio sfrutta i recenti progressi nell'elaborazione del linguaggio naturale4,5 per addestrare un ampio modello linguistico per il linguaggio medico (NYUTron) e successivamente perfezionarlo su un'ampia gamma di compiti predittivi clinici e operativi. Abbiamo valutato il nostro approccio all’interno del nostro sistema sanitario per cinque di questi compiti: previsione della riammissione in ospedale per tutte le cause a 30 giorni, previsione della mortalità intraospedaliera, previsione dell’indice di comorbilità, previsione della durata del ricovero e previsione del rifiuto assicurativo. Mostriamo che NYUtron ha un'area sotto la curva (AUC) del 78,7–94,9%, con un miglioramento del 5,36–14,7% nell'AUC rispetto ai modelli tradizionali. Dimostriamo inoltre i vantaggi del pre-addestramento con testo clinico, il potenziale per aumentare la generalizzabilità a diversi siti attraverso la messa a punto e l'implementazione completa del nostro sistema in uno studio prospettico a braccio singolo. Questi risultati mostrano il potenziale dell’utilizzo di modelli di linguaggio clinico in medicina per leggere insieme ai medici e fornire assistenza sul posto di cura.

Ogni giorno i medici prendono decisioni difficili che richiedono l’integrazione di un’enorme quantità di informazioni. Le informazioni necessarie per prendere queste decisioni mediche sono sparse in vari documenti, ad esempio l'anamnesi del paziente e i referti di laboratorio e di imaging. Quando i medici svolgono il loro lavoro, tuttavia, tutte queste informazioni vengono infine integrate nelle note scritte dai medici per documentare e riassumere la cura del paziente.

I modelli predittivi clinici derivano spesso da regole che esistono da decenni6,7,8,9, nonché da metodi di apprendimento automatico10,11,12, e la maggior parte si basa su input strutturati estratti dalla cartella clinica elettronica (EHR) o direttamente dal medico input. Questa dipendenza da input strutturati introduce complessità nell’elaborazione dei dati, così come nello sviluppo e nell’implementazione dei modelli, che in parte è responsabile del fatto che la stragrande maggioranza degli algoritmi predittivi medici vengano addestrati, testati e pubblicati, ma mai utilizzati per valutare il loro impatto sulla realtà. assistenza clinica mondiale. Questo viene spesso definito il “problema dell'ultimo miglio” (rif. 1,2,3).

Uno degli sviluppi recenti più interessanti nella ricerca moderna sull’intelligenza artificiale (AI) sono i modelli linguistici di grandi dimensioni (LLM). È stato dimostrato che queste enormi reti neurali (con milioni o addirittura miliardi di parametri) ottengono risultati di grande impatto su un’ampia gamma di problemi che si basano sulla lettura e sull’interpretazione del linguaggio umano. Negli ultimi anni sono stati sviluppati diversi stili di LLM, che vanno dai modelli di codificatore (come BERT4) ai modelli di decodificatore (come GPT3; rif. 5). Abbiamo teorizzato che i LLM potrebbero potenzialmente risolvere il problema dell'ultimo miglio nell'analisi predittiva medica semplicemente leggendo le note scritte dai medici, accedendo così immediatamente a una descrizione completa dello stato medico di un paziente per fornire supporto decisionale presso il punto di cura in un'ampia gamma di aspetti. compiti clinici ed operativi.

Qui presentiamo i nostri risultati derivanti dallo sviluppo, valutazione, implementazione e valutazione prospettica di NYUTron, un sistema basato su LLM che può integrarsi in tempo reale con flussi di lavoro clinici incentrati sulla scrittura di note e sull'immissione di ordini elettronici. Il nostro approccio si basa sul fatto che tutti i dati clinicamente utili e i processi decisionali dei professionisti medici possono essere trovati come testo strutturato o non strutturato nelle cartelle cliniche elettroniche (ad esempio come note, risultati di laboratorio e rapporti sugli studi). Il nostro approccio sfrutta i recenti progressi nell'elaborazione del linguaggio naturale che suggeriscono che LLM sufficientemente scalati e autocontrollati possono sovraperformare gli approcci fortemente supervisionati su compiti predittivi non medici4,5,13. Investighiamo la nostra ipotesi nel NYU Langone Health System ("NYU Langone"), un grande sistema ospedaliero multi-distretto con una popolazione di pazienti diversificata a New York, con 4 ospedali urbani e 350 siti ambulatoriali. Valutiamo NYUTron su una serie di cinque attività, di cui tre cliniche e due operative (previsione di riammissione per tutte le cause a 30 giorni, previsione di mortalità intraospedaliera, previsione di indice di comorbilità, previsione di durata del ricovero (LOS) e previsione di rifiuto assicurativo) e fornire un'analisi dettagliata del nostro compito di riammissione di 30 giorni per esaminare questioni relative all'efficienza dei dati, alla generalizzabilità, all'implementazione e al potenziale impatto clinico. Ripensando tutta l'analisi predittiva medica (vedere Informazioni supplementari sezione 1.1 per lavori precedenti) come un problema di elaborazione del linguaggio naturale, mostriamo che è possibile utilizzare LLM come motori di previsione universale per un'ampia gamma di attività predittive mediche.

75% quantile). Figure 2c shows that, for LOS prediction, NYUTron had a median one-versus-rest (OVR) AUC of 78.7% ± 0.179%, with a 12.3% improvement from the structured baseline, which used an available subset of ‘Lisbon Portugal’ features18. The task of insurance claim denial prediction was to predict (at admission) whether the insurance claims submitted for an encounter would be accepted or initially denied. Figure 2c shows that, for insurance denial prediction, NYUTron had a median AUC of 87.2% ± 0.246%, with a 14.7% improvement from the structured baseline, which used an available subset of ‘claim form’ features19 such as age and insurance provider. NYUTron is also capable of predicting different types of denials from both admission notes and discharge notes with similar performance (Supplementary Information section 2.2)./p>1 billion parameters), generative models pretrained on large, non-specific datasets. Nonetheless, even relatively small LLMs, such as the ones used in this study, require a substantial amount of compute time for pretraining. Our pretraining used 24 NVIDIA A100 GPUs with 40 GB of VRAM for 3 weeks, and our fine-tuning used 8 A100 GPUs for 6 hours per run. This amount of computation is not commonly accessible to research groups, although we note that it is less than that in similar LLM projects routinely pursued by industry research groups and that our results indicate that massive pretraining may not be necessary to obtain highly performant models. Our results show that high-quality datasets for fine-tuning are more valuable than pretraining, and, on the basis of our experimental results, we recommend that users locally fine-tune an externally pretrained language model when computational ability is limited. Regarding the choice for the externally pretrained model, we further recommend using a model pretrained with a large amount of in-domain clinical text, although we note that large, out-of-domain models can be highly performant, particularly when combined with in-domain fine-tuning. Work with larger decoder-based architectures has also demonstrated a benefit with fine-tuning on medical data or prompt tuning with chain of thought, instructions and related techniques24,25, which further emphasizes the necessity of accounting for the domain shift from general to medical text for LLM work in the medical sciences. Although we have not compared these approaches directly (which would require more medical text or fusion with general-domain text for training a compute-optimal model26), we believe that this could be an interesting future direction for research and that, in the end, approaches combining these different approaches to language modelling may prove to be complementary depending on the use case./p>7 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>5 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>