12:05 · Sep 17, 2023 · Sun × 用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对LLM预训练Web规模数据集进行去重。Galactic | #工具