Torch-TRTLLM:让HuggingFace模型秒变TensorRT-LLM引擎的开源框架

单行命令即可完成模型转换,超低门槛;支持多种未被TensorRT-LLM原生支持的模型架构,如Helium;性能卓越,如Llama3.3-70B-Instruct模型在A100上达到1759.2 token/sec的吞吐量
 
 
Back to Top