A Large-Scale Document-Level Relation Extraction Dataset

{Template pubblicazione |data=2019 |autori=Yuan Yao et al. |URL=https://www.semanticscholar.org/paper/2745fc72e1dd53d1c30f17cf05841b163c2f63c9 |topic=Relazione di estrazione |citazioni=377 }

DocRED è un dataset su larga scala per l'estrazione di relazioni a livello di documento, creato per affrontare le sfide dell'identificazione di relazioni complesse tra entità che si estendono su più frasi. A differenza dei metodi tradizionali di estrazione di relazioni che si concentrano sulle relazioni all'interno della frase, DocRED si concentra sulla comprensione del contesto dell'intero documento per estrarre relazioni più complete e significative.

Il dataset è stato costruito utilizzando Wikipedia e Wikidata e contiene un vasto numero di documenti annotati con entità e le loro relazioni. DocRED richiede ai modelli di leggere e comprendere più frasi all'interno di un documento per inferire le relazioni tra le entità, promuovendo lo sviluppo di sistemi di estrazione delle relazioni più sofisticati in grado di gestire la complessità del linguaggio naturale.