Helion:专为机器学习内核打造的 Python 嵌入式 DSL,极大简化高性能 GPU 编程,提升开发效率与代码可维护性。
• 目标:基于 Triton 之上提升抽象层,自动化内核调优,减少手写代码量,支持高效且跨硬件性能可移植的内核开发
• 自动化能力:自动计算张量索引、隐式掩码优化、网格大小与 PID 映射自动确定,自动生成搜索空间及配置标志
• 高级功能:内核参数自动管理,支持循环化归约,自动 PID 变换提升缓存重用,循环重排,持久内核策略及 warp 专用化等多重优化
• 编程体验:PyTorch 风格语法,内嵌标准 PyTorch 操作,生成单一 Triton GPU 内核,自动划分并行 tile,兼容复杂函数调用
• 自适应调优:首次运行自动执行差分进化算法搜索最佳内核配置,支持显式配置跳过调优以缩短启动时间,适应不同硬件与场景需求
• 配置灵活:支持多维 tile 大小、循环展开、管线阶段、索引方式、PID 类型与 warp 数量等,配置改动可显著影响性能,便于精准调优
• 开发调试:支持打印生成代码、环境变量控制自动调优与日志,提供生产环境稳定部署建议,推荐预先调优配置避免运行时开销
• 环境要求:Linux 系统,Python 3.10+,PyTorch 夜版,最新 Triton 开发版,建议使用 conda 环境管理依赖
• 开源许可:BSD-3-Clause,社区活跃,欢迎反馈与贡献
Helion 凝聚了自动化调优与抽象提升的优势,助力开发者专注算法创新,释放 GPU 计算潜力。
• 目标:基于 Triton 之上提升抽象层,自动化内核调优,减少手写代码量,支持高效且跨硬件性能可移植的内核开发
• 自动化能力:自动计算张量索引、隐式掩码优化、网格大小与 PID 映射自动确定,自动生成搜索空间及配置标志
• 高级功能:内核参数自动管理,支持循环化归约,自动 PID 变换提升缓存重用,循环重排,持久内核策略及 warp 专用化等多重优化
• 编程体验:PyTorch 风格语法,内嵌标准 PyTorch 操作,生成单一 Triton GPU 内核,自动划分并行 tile,兼容复杂函数调用
• 自适应调优:首次运行自动执行差分进化算法搜索最佳内核配置,支持显式配置跳过调优以缩短启动时间,适应不同硬件与场景需求
• 配置灵活:支持多维 tile 大小、循环展开、管线阶段、索引方式、PID 类型与 warp 数量等,配置改动可显著影响性能,便于精准调优
• 开发调试:支持打印生成代码、环境变量控制自动调优与日志,提供生产环境稳定部署建议,推荐预先调优配置避免运行时开销
• 环境要求:Linux 系统,Python 3.10+,PyTorch 夜版,最新 Triton 开发版,建议使用 conda 环境管理依赖
• 开源许可:BSD-3-Clause,社区活跃,欢迎反馈与贡献
Helion 凝聚了自动化调优与抽象提升的优势,助力开发者专注算法创新,释放 GPU 计算潜力。