通过整合多开源数据集并进行深度处理，构建了迄今最大的开源NLP预训练语料Zyda，质量接近商业语料，为开源语言模型研究奠定数据基础

16:07 · Jun 6, 2024 · Thu

通过整合多开源数据集并进行深度处理，构建了迄今最大的开源NLP预训练语料Zyda，质量接近商业语料，为开源语言模型研究奠定数据基础。

Zyda: A 1.3T Dataset for Open Language Modeling