由Mixtral-8x7B-Instruct-v0.1生成的合成数据集，包含超过30亿Token，涵盖了教科书、博客、故事等各种文本类型

15:13 · Feb 21, 2024 · Wed

由Mixtral-8x7B-Instruct-v0.1生成的合成数据集，包含超过30亿Token，涵盖了教科书、博客、故事等各种文本类型。

数据集包含8个子集，涵盖了多个主题，如网络样本、斯坦福课程大纲、故事、WikiHow文章等。

通过使用不同样式和受众，以及精心设计的提示，增加了内容的多样性和信息熵。通过MinHash去重，仅有不到1%的重复样本。还通过去污染流程，排除了来自测试基准的样本，保证数据的干净性。

该数据集可用于研究合成数据领域，促进人工智能相关研究的发展。

Cosmopedia | #数据集