Rensa:高性能的MinHash实现,为大规模数据集的相似性估计和去重提供极致效率。

比传统datasketch快40倍;内存占用更低;提供Python绑定,易于集成
 
 
Back to Top