15:14 · Sep 6, 2023 · Wed × BytePiece是一个bytes-based的Unigram分词器。由于采用了新的训练算法,所以压缩率通常比现有tokenizer更高。此外,它直接操作文本的utf-8 bytes,几乎不进行任何的预处理,所以更加纯粹和语言无关