Kubernetes原生高性能分布式LLM推理框架,助力大规模语言模型推理部署。

采用vLLM优化的推理调度器,提升性能;支持解耦式服务,灵活部署;提供独立和共享两种KV缓存方案,优化资源利用

llm-d | #框架
 
 
Back to Top