DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones
Tuowei Wang, Minxing Huang, Fengzu Li, Ligeng Chen, Jinrui Zhang, Ju Ren
随着对类人推理、多轮对话和长式响应的需求不断增长,人们越来越期望大型语言模型(LLM)支持高效和有效的长序列解码。 然而,由于DRAM容量有限,智能手机上的长序列LLM解码受到键值缓存(KVCache)的限制,其内存占用率随着序列长度的线性增加而增加。 基于检索的方法通过卸载 KVCache 到闪存和检索基于群集的索引来缓解 DRAM 压力。 不幸的是,随着解码的进展,KVCache 分布移使静态或本地群集更新逐渐错位,不包括基本条目或获取冗余条目。 这些问题因智能手机在带宽、IOPS 和内存容量方面的特定限制而进一步加剧。 我们提出了DynaKV,这是第一个自适应KVCache管理方法,共同解决智能手机上长序列解码的准确性和效率。 DynaKV集成了三种关键技术:(1)免迁移集群适应,在检索过程中自适应地分割集群,而不会产生额外的传输;(2)Continuity-Centric Flash Management,它共同定位相关的条目和集群,并采用双头布局进行高效更新;(3)内存效率缓存设计,它虚拟化跨DRAM和闪存的缓存空间,并扩展替换策略以与集群级访问模式保持一致。 评估表明,与最先进的解决方案相比,DynaKV提高了检索精度并降低了端到端延迟,实现了1.38×的精度和1.47×的提速。 此外,DynaKV的见解自然延伸到其他长上下文工作负载和多层内存层次结构,强调了其更广泛的适用性。
As the demand for human-like reasoning, multi-turn dialogues, and long-form responses grows, large language models (LLMs) are increasingly expected to support efficient and effective long-sequence decoding. However, due to limited DRAM capacity, long-seuqence LLM decoding on smartphones is constrained by the key-value cache (KVCache), whose memory footprint increases linearly with sequence length. Retrieval-based methods mitigate DRAM pressure by offloading KVCache to flash and retrieving query-...