Aya Dataset是一个开放获取的数据集合，旨在填补自然语言处理中的语言差距，包括一个由人工策划的涵盖65种语言的指令遵循数据集，以及一个跨越114种语言的多语言数据集，共包含5.13亿个实例

15:40 · Feb 13, 2024 · Tue

Aya Dataset是一个开放获取的数据集合，旨在填补自然语言处理中的语言差距，包括一个由人工策划的涵盖65种语言的指令遵循数据集，以及一个跨越114种语言的多语言数据集，共包含5.13亿个实例。

该项目旨在为指令微调提供资源，并为未来的研究合作提供宝贵的框架。该数据集对于AI语言建模的突破至关重要，并强调了多样性和包容性数据集的重要性。