15:13 · Feb 21, 2024 · Wed × 由Mixtral-8x7B-Instruct-v0.1生成的合成数据集,包含超过30亿Token,涵盖了教科书、博客、故事等各种文本类型。数据集包含8个子集,涵盖了多个主题,如网络样本、斯坦福课程大纲、故事、WikiHow文章等。通过使用不同样式和受众,以及精心设计的提示,增加了内容的多样性和信息熵。通过MinHash去重,仅有不到1%的重复样本。还通过去污染流程,排除了来自测试基准的样本,保证数据的干净性。该数据集可用于研究合成数据领域,促进人工智能相关研究的发展。Cosmopedia | #数据集