一个为数据中心规模分布式推理服务而生的框架。

高吞吐量与低延迟,完美服务生成式AI和推理模型;支持多种推理引擎,如TRT-LLM、vLLM等;优化动态GPU调度,提升资源利用效率

Dynamo | #框架
 
 
Back to Top