很多企业在部署大语言模型推理时,面临效率低、成本高的难题。xLLM 是京东开源的高性能 LLM 推理引擎,专为中国AI加速器优化,支持多模型(如 Qwen、DeepSeek、Llama2 等)高效推理,助力企业实现低延迟、高吞吐的智能应用。

xLLM 采用服务与引擎分离架构,结合弹性调度、多流并行、图融合优化、动态负载均衡和全局 KV 缓存管理等技术,实现推理效率的大幅提升。支持异步调度、动态图优化、智能内存管理和算法驱动加速,保障推理稳定高效。

主要功能:
- 多模型支持:DeepSeek、Qwen、Llama2 等主流大模型
- 弹性在线/离线请求调度,减少计算空闲
- 多流并行计算,通信与计算重叠加速
- 动态形状图优化,内存碎片减少,安全复用
- KV 缓存智能分层管理,提升分布式性能
- 细粒度负载均衡与多核推理加速

支持 Docker 容器快速部署,兼容多种国产AI加速器,适合智能客服、风控、供应链优化、广告推荐等多样场景。
 
 
Back to Top