• 基于 Python 实现,支持 thread-block 级别细粒度控制,采用张量为核心数据类型。
• 明确管理共享内存和寄存器张量,区别于 Triton 的抽象,更灵活高效。
• 支持 1~8 位任意位宽的低精度类型,极大节省存储与计算资源。
• 内建自动调优与缓存机制,Pythonic 接口简化开发流程,降低上手门槛。
• 借鉴并融合 Hidet、TVM、Triton 和 Hexcute 等开源项目理念,结合最新论文成果,推动 GPU 计算新范式。
• 适用大规模语言模型(LLM)推理场景,优化性能与资源利用率。
安装即用:`pip install tilus`,丰富教程与示例助力快速掌握。