Skip to main content

Aya Dataset是一个开放获取的数据集合,旨在填补自然语言处理中的语言差距,包括一个由人工策划的涵盖65种语言的指令遵循数据集,以及一个跨越114种语言的多语言数据集,共包含5.13亿个实例

  1. Aya Dataset是一个开放获取的数据集合,旨在填补自然语言处理中的语言差距,包括一个由人工策划的涵盖65种语言的指令遵循数据集,以及一个跨越114种语言的多语言数据集,共包含5.13亿个实例。

    该项目旨在为指令微调提供资源,并为未来的研究合作提供宝贵的框架。该数据集对于AI语言建模的突破至关重要,并强调了多样性和包容性数据集的重要性。