黑洞资源笔记
15:58 · May 21, 2025 · Wed
Kubernetes原生高性能分布式LLM推理框架,助力大规模语言模型推理部署。
采用vLLM优化的推理调度器,提升性能;支持解耦式服务,灵活部署;提供独立和共享两种KV缓存方案,优化资源利用
llm-d
| #框架
Home
Powered by
BroadcastChannel
&
Sepia