一个为数据中心规模分布式推理服务而生的框架

一个为数据中心规模分布式推理服务而生的框架。

高吞吐量与低延迟，完美服务生成式AI和推理模型；支持多种推理引擎，如TRT-LLM、vLLM等；优化动态GPU调度，提升资源利用效率

Dynamo | #框架