Skip to main content

黑洞资源笔记

  1. 代码生成模型的高效微调、推理和评估工具,专为处理代码生成任务的挑战而设计,提供显著的性能提升,包括高效的注意力实现、极速推理和简化的评估流程

    FastCode | #工具
  2. 自动化Python到Mojo代码转换工具,可将Python代码自动转换为Mojo编程语言,支持基础数据类型转换及函数和类结构转换,适用于需要将Python代码迁移到Mojo语言的开发者

    py2mojo | #工具
  3. 持续更新的中文指令微调数据集,支持双语微调和数据修正。

    本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。

    原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:

    修改原始英文数据集的一些问题
    翻译为中文数据集
    调整直译导致的一些sample
    code等一些特殊的输出不进行翻译
    对齐一些特殊的标签 或者拒绝生成等输出

    Alpaca中文指令微调数据集 | #数据集
  4. minbpe:用于大型语言模型(LLM)分词的简洁干净的字节对编码(BPE)算法实现,支持自定义训练和与GPT-4分词器的比较验证