A Large-Scale Document-Level Relation Extraction Dataset

A Large-Scale Document-Level Relation Extraction Dataset
Data	2019
Autori	Yuan Yao et al.
URL	https://www.semanticscholar.org/paper/2745fc72e1dd53d1c30f17cf05841b163c2f63c9
Topic	Relazione di estrazione
Citazioni	377

DocRED è un dataset su larga scala per l'estrazione di relazioni a livello di documento, creato per affrontare le sfide dell'identificazione di relazioni complesse tra entità che si estendono su più frasi. A differenza dei metodi tradizionali di estrazione di relazioni che si concentrano sulle relazioni all'interno della frase, DocRED si concentra sulla comprensione del contesto dell'intero documento per estrarre relazioni più complete e significative.

Il dataset è stato costruito utilizzando Wikipedia e Wikidata e contiene un vasto numero di documenti annotati con entità e le loro relazioni. DocRED richiede ai modelli di leggere e comprendere più frasi all'interno di un documento per inferire le relazioni tra le entità, promuovendo lo sviluppo di sistemi di estrazione delle relazioni più sofisticati in grado di gestire la complessità del linguaggio naturale.