APEX+ 是面向大规模语言模型(LLM)服务的自动并行执行模拟器,突破传统启发式调度限制,实现更高效、更节能的推理方案。

• 支持多种硬件后端(包括V100、H100、H200 GPU及其他设备),通过op级别性能剖析数据驱动,轻松适配不同集群架构。
• 动态感知请求上下文长度与生成长度,模拟迭代级批处理,利用LLM重复结构极大缩减设计空间,支持万亿参数级模型扩展。
• 规划速度提升3.37倍,能耗降低高达45%(相较于延迟最优方案),15分钟内CPU端即可获得最优执行计划,远超云端GPU部署(71倍更快,1234倍成本效益)。
• 输出详尽性能指标(如TTFT、TPOT、吞吐量、资源利用率等),帮助服务商精准达成SLO目标,支持自定义最大批处理规模。
• 支持真实请求日志模拟(.jsonl格式),涵盖多模型架构(解码器、编码器-解码器、MoE),并可与vLLM、SGLang等实际服务框架联合验证。

APEX+通过科学模拟与灵活配置,推动LLM推理服务进入高效节能新时代,助力规模化部署与服务质量保障。
 
 
Back to Top