LongAlign: A Recipe for Long Context Alignment of Large Language Models

Da Wiki AI.
LongAlign: A Recipe for Long Context Alignment of Large Language Models
Data 2024
Autori Yushi Bai et al.
URL https://www.semanticscholar.org/paper/ec9203f6c25a353325dd23ed38e5036b79d9e79b
Topic Long Context Alignment
Citazioni 13


LongAlign è un metodo per addestrare modelli linguistici di grandi dimensioni (LLM) a gestire contesti lunghi in modo efficace. Il metodo prevede la creazione di un set di dati di istruzioni lungo utilizzando Self-Instruct, l'adozione di strategie di batch packing e ordinamento per accelerare il fine-tuning supervisionato e lo sviluppo di un metodo di ponderazione delle perdite per bilanciare il contributo alla perdita tra diverse sequenze. Gli esperimenti dimostrano che LongAlign supera i metodi esistenti per gli LLM in attività di contesto lungo fino al 30%, mantenendo al contempo la loro competenza nella gestione di attività brevi e generiche.