Tilus：面向 GPU 的高效 tile 级核函数编程语言，专为低精度大规模模型推理设计

Tilus：面向 GPU 的高效 tile 级核函数编程语言，专为低精度大规模模型推理设计。

• 基于 Python 实现，支持 thread-block 级别细粒度控制，采用张量为核心数据类型。
• 明确管理共享内存和寄存器张量，区别于 Triton 的抽象，更灵活高效。
• 支持 1~8 位任意位宽的低精度类型，极大节省存储与计算资源。
• 内建自动调优与缓存机制，Pythonic 接口简化开发流程，降低上手门槛。
• 借鉴并融合 Hidet、TVM、Triton 和 Hexcute 等开源项目理念，结合最新论文成果，推动 GPU 计算新范式。
• 适用大规模语言模型（LLM）推理场景，优化性能与资源利用率。

安装即用：`pip install tilus`，丰富教程与示例助力快速掌握。