Skip to main content

BytePiece是一个bytes-based的Unigram分词器

  1. BytePiece是一个bytes-based的Unigram分词器。由于采用了新的训练算法,所以压缩率通常比现有tokenizer更高。此外,它直接操作文本的utf-8 bytes,几乎不进行任何的预处理,所以更加纯粹和语言无关