Atoma Infer：为大语言模型推理服务提供极致优化的基础设施

Atoma Infer：为大语言模型推理服务提供极致优化的基础设施。

完全兼容OpenAI API，无缝对接开源LLM模型；采用Paged Attention和FlashAttention2技术，显著提升KV缓存管理和注意力计算效率；支持多GPU并行推理，充分利用NVIDIA GPU资源