Informazioni per "Training Compute-Optimal Large Language Models"

Informazioni di base

Titolo visualizzatoTraining Compute-Optimal Large Language Models
Criterio di ordinamento predefinitoTraining Compute-Optimal Large Language Models
Lunghezza della pagina (in byte)2 172
ID namespace0
ID della pagina1791
Lingua del contenuto della paginait - italiano
Modello del contenuto della paginawikitesto
Indicizzazione per i robotConsentito
Numero di redirect a questa pagina0
Conteggiata come una pagina di contenuto

Protezione della pagina

ModificaAutorizza tutti gli utenti (infinito)
SpostamentoAutorizza tutti gli utenti (infinito)
Visualizza il registro di protezione per questa pagina.

Cronologia delle modifiche

Creatore della paginaAlesaccoia (discussione | contributi)
Data di creazione della pagina22:36, 27 nov 2024
Ultimo contributoreAlesaccoia (discussione | contributi)
Data di ultima modifica22:39, 27 nov 2024
Numero totale di modifiche3
Numero totale di autori diversi2
Numero di modifiche recenti (negli ultimi 90 giorni)0
Numero di autori diversi recenti0

Proprietà della pagina

Template incluso (1)

Template utilizzato in questa pagina:

SEO properties

Descrizione

Contenuto

Titolo della pagina: (title)
This attribute controls the content of the <title> element.
Training Compute-Optimal Large Language Models
Title mode (title_mode)
Ulteriori informazioni
append
Article description: (description)
This attribute controls the content of the description and og:description elements.
Questo studio esplora come la performance dei modelli linguistici scala in base alla perdita di entropia incrociata, alla dimensione del modello, del dataset e al calcolo impiegato. Modelli più grandi sono più sample-efficient, suggerendo che l'addestramento ottimale dal punto di vista computazionale consiste nell'allenare modelli molto grandi su quantità di dati relativamente ridotte.
Parole chiave: (keywords)
This attribute controls the content of the keywords and article:tag elements.
  • modelli linguistici
  • apprendimento automatico
  • intelligenza artificiale
  • elaborazione del linguaggio naturale
  • reti neurali
  • legge di scaling
  • perdita di entropia incrociata
  • overfitting
  • velocità di addestramento
  • allocazione del budget di calcolo
Information from Extension:WikiSEO