11:09 · Mar 14, 2024 · Thu × nm-vllm:高吞吐量和内存高效的LLM推理和服务引擎,针对LLM模型的推理引擎,具有优化的性能,支持量化和稀疏化等最新优化技术。通过nm-vllm,用户可以快速部署和推理LLM模型,并获得高效的推理性能