nano-vllm:轻量级vLLM实现,从零开始构建的高效推理模型。

极速离线推理,性能与vLLM相当;代码简洁易读,仅1200行Python代码;多项优化技术,如前缀缓存、Torch编译等
 
 
Back to Top