本项目旨在构建一个小参数量的llm,走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习 四个阶段,以可控的成本完成一个可以完成简单聊天任务的chat模型,目前完成前两个阶段。
使用bert4torch训练框架,代码简洁高效;
训练的checkpoint可以无缝衔接transformers,直接使用transformers包进行推理;
优化了训练时候文件读取方式,优化内存占用;
提供了完整训练log供复现比对;
增加自我认知数据集,可自定义机器人名称作者等属性。
chat模型支持多轮对话。