Chameleon: Adaptive Caching and Scheduling for Many-Adapter LLM Inference Environments
Nikoleta Iliakopoulou, Jovan Stojkovic, Chloe Alverti, Tianyin Xu, Hubertus Franke, Josep Torrellas
LLM的广泛采用推动了其部署的指数级增长,对推理集群提出了实质性要求。 这些群集必须处理不同 LLM 下游任务的众多并发查询。 为了处理具有庞大 LLM 参数计数的多任务设置,Low-Rank Adaptation (LoRA) 之类的方法可实现特定任务的微调,同时跨任务共享大部分基本 LLM 模型。 因此,它们允许在内存要求最低的同时处理。 然而,现有的LLM服务系统面临低效率:它们忽略了工作负载异质性,从频繁的适配器加载中强加了高链路带宽,并且在其调度器中受到一线阻塞的影响。 为了应对这些挑战,我们介绍了Chameloon,一种针对许多适配器环境优化的新型LLM服务系统,它依赖于两个核心想法:适配器缓存和适配器感知调度。 首先,Chameloon在GPU内存中缓存流行的适配器,最大限度地减少适配器加载时间。 重要的是,它使用原本闲置的GPU内存,避免了额外的内存成本。 其次,Chameloon使用非抢先多排队调度来有效地考虑工作负载异质性。 通过这种方式,Chameloon同时防止了线头阻塞和饥饿。 我们在最先进的LLM服务平台之上实施Chameloon,并通过真实世界的生产痕迹和开源LLM对其进行评估。 在高负载下,Chameloon将P99和P50 TTFT延迟分别降低了80.7%和48.1%,与最先进的基线相比,吞吐量提高了1.5倍。
The widespread adoption of LLMs has driven an exponential rise in their deployment, imposing substantial demands on inference clusters. These clusters must handle numerous concurrent queries for different LLM downstream tasks. To handle multi-task settings with vast LLM parameter counts, methods like Low-Rank Adaptation (LoRA) enable task-specific fine-tuning while sharing most of the base LLM model across tasks. Hence, they allow concurrent task serving with minimal memory requirements. However...