Skip to main content

OpenWebMath:包含互联网上大部分高质量数学文本的数据集,从 Common Crawl 的超过 2000 亿 HTML 文件中过滤并提取出包含 147 亿 Token 的 630 万份文档,OpenWebMath 旨在用于预训练和微调大型语言模型 | #数据集

  1. OpenWebMath:包含互联网上大部分高质量数学文本的数据集,从 Common Crawl 的超过 2000 亿 HTML 文件中过滤并提取出包含 147 亿 Token 的 630 万份文档,OpenWebMath 旨在用于预训练和微调大型语言模型 | #数据集