Byte-Pair Encoding (BPE): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 13: | Riga 13: | ||
|title=Byte-Pair Encoding | |title=Byte-Pair Encoding | ||
|title_mode=append | |title_mode=append | ||
|keywords= | |keywords=tokenizzazione, modello linguistico, elaborazione del linguaggio naturale, PNL, GPT, transformer, codifica, compressione, testo | ||
|description= | |description=Il Byte-Pair Encoding (BPE) è una tecnica di tokenizzazione inizialmente pensata per la compressione del testo. Oggi è ampiamente utilizzata nei modelli transformer come GPT per elaborare il linguaggio naturale. | ||
}} | }} |
Versione attuale delle 13:46, 17 ago 2024
Byte-Pair Encoding (BPE) | |
---|---|
Nome Inglese | Byte-Pair Encoding |
Sigla | BPE |
Una tecnica di tokenizzazione , inventata originariamente per comprimere i testi, utilizzata spesso nei modelli transformer come GPT.
Links
https://huggingface.co/learn/nlp-course/chapter6/5#byte-pair-encoding-tokenization
https://github.com/karpathy/minGPT/blob/master/mingpt/bpe.py