Kubernetes原生高性能分布式LLM推理框架，助力大规模语言模型推理部署

Kubernetes原生高性能分布式LLM推理框架，助力大规模语言模型推理部署。

采用vLLM优化的推理调度器，提升性能；支持解耦式服务，灵活部署；提供独立和共享两种KV缓存方案，优化资源利用

llm-d | #框架