Byte-Pair Encoding (BPE): differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
| (2 versioni intermedie di uno stesso utente non sono mostrate) | |||
| Riga 10: | Riga 10: | ||
https://github.com/karpathy/minGPT/blob/master/mingpt/bpe.py | https://github.com/karpathy/minGPT/blob/master/mingpt/bpe.py | ||
{{#seo: | |||
|title=Byte-Pair Encoding | |||
|title_mode=append | |||
|keywords=tokenizzazione, modello linguistico, elaborazione del linguaggio naturale, PNL, GPT, transformer, codifica, compressione, testo | |||
|description=Il Byte-Pair Encoding (BPE) è una tecnica di tokenizzazione inizialmente pensata per la compressione del testo. Oggi è ampiamente utilizzata nei modelli transformer come GPT per elaborare il linguaggio naturale. | |||
}} | |||
Versione attuale delle 13:46, 17 ago 2024
| Byte-Pair Encoding (BPE) | |
|---|---|
| Nome Inglese | Byte-Pair Encoding |
| Sigla | BPE |
Una tecnica di tokenizzazione , inventata originariamente per comprimere i testi, utilizzata spesso nei modelli transformer come GPT.
Links
https://huggingface.co/learn/nlp-course/chapter6/5#byte-pair-encoding-tokenization
https://github.com/karpathy/minGPT/blob/master/mingpt/bpe.py