TokenDagger:高性能实现OpenAI的TikToken,为大规模文本处理加速。

代码样本分词速度比原版快4.02倍;采用优化的PCRE2正引擎则,解析效率更高;简化BPE算法,降低大词汇表性能损耗
 
 
Back to Top