我们的中文互联网不足以提供高质量的训练数据

我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据？比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。

我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText（开源版本）,数据是从Reddit论坛上收集的URL，再把内容抓取下来。Common Crawl是一个开放的互联网数据存档（英文占一半，中文大概5%）。其他一些代表性的数据包括Wikipedia维基百科，Books开放图书，Stack Exchange 技术问答社区，Github 代码，ArXiv论文，RealNews 新闻存档，PubMed 医疗数据。可以看到，由中文互联网产生的数据，比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题，但实际上，ChatGPT的用中文沟通的能力，已经远超那些专门的中文大语言模型了，背后原因是GPT隐式学到的翻译能力。

没有好的中文数据，我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生，需要开放的社区，我们似乎无解。