nm-vllm：高吞吐量和内存高效的LLM推理和服务引擎，针对LLM模型的推理引擎，具有优化的性能，支持量化和稀疏化等最新优化技术

nm-vllm：高吞吐量和内存高效的LLM推理和服务引擎，针对LLM模型的推理引擎，具有优化的性能，支持量化和稀疏化等最新优化技术。通过nm-vllm，用户可以快速部署和推理LLM模型，并获得高效的推理性能