16:07 · Jun 6, 2024 · Thu × 通过整合多开源数据集并进行深度处理,构建了迄今最大的开源NLP预训练语料Zyda,质量接近商业语料,为开源语言模型研究奠定数据基础。Zyda: A 1.3T Dataset for Open Language Modeling