GRPO-With-Cargo-Feedback:用Rust编程和cargo反馈微调LLM的GitHub项目。

使用cargo工具链作为反馈,提升代码编译和测试通过率;单次迭代后,代码编译成功率提升20%,单元测试通过率提升15%;提供完整的Marimo Notebook实验流程,方便复现和运行
 
 
Back to Top