R. Braga Medeiros Mota Borges | TU Delft Repository

RB

R. Braga Medeiros Mota Borges

Bachelor thesis (1)

1 records found

1

Tokenization Matters: Training your Tokenizer Right

Testing the Impact of Tokenization on Language Modelling with (Small) Transfomers

Bachelor thesis (2024) - R. Braga Medeiros Mota Borges (author), Maliheh Izadi (mentor), M. Izadi (mentor), Maliheh Izadi (mentor), A.D. de Moor (mentor), Aral de Moor (mentor), Arie Van Deursen (mentor), A van Deursen (mentor), Arie van Van Deursen (mentor), Arie van Deursen (mentor), Arie Deursen (mentor), A Van Deursen (mentor), A Deursen (mentor), Arie Van van Deursen (mentor), Arie Van Deursen (mentor), Arie Deursen (mentor), A. van Deursen (mentor), A. Van Deursen (mentor), Arie van Deursen (mentor), A. Deursen (mentor), Arie van van Deursen (mentor), Arie van Deursen (mentor), Arie Van Deursen (mentor), Arie Van Van Deursen (mentor), Thomas Abeel (graduation committee member), T.E.P.M.F. Abeel (graduation committee member)

Large language models (LLMs) are rapidly increasing in parameter count, but this growth is not matched by an availability of high-quality data. This discrepancy raises concerns about the sustain- ability of current approaches to language model improvement, especially as forecasts ...