APEX+ 是面向大规模语言模型（LLM）服务的自动并行执行模拟器，突破传统启发式调度限制，实现更高效、更节能的推理方案

APEX+ 是面向大规模语言模型（LLM）服务的自动并行执行模拟器，突破传统启发式调度限制，实现更高效、更节能的推理方案。

• 支持多种硬件后端（包括V100、H100、H200 GPU及其他设备），通过op级别性能剖析数据驱动，轻松适配不同集群架构。
• 动态感知请求上下文长度与生成长度，模拟迭代级批处理，利用LLM重复结构极大缩减设计空间，支持万亿参数级模型扩展。
• 规划速度提升3.37倍，能耗降低高达45%（相较于延迟最优方案），15分钟内CPU端即可获得最优执行计划，远超云端GPU部署（71倍更快，1234倍成本效益）。
• 输出详尽性能指标（如TTFT、TPOT、吞吐量、资源利用率等），帮助服务商精准达成SLO目标，支持自定义最大批处理规模。
• 支持真实请求日志模拟（.jsonl格式），涵盖多模型架构（解码器、编码器-解码器、MoE），并可与vLLM、SGLang等实际服务框架联合验证。

APEX+通过科学模拟与灵活配置，推动LLM推理服务进入高效节能新时代，助力规模化部署与服务质量保障。