m6米乐全站登录
新闻动态
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原

发布日期:2025-04-13 10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原

在 InternVL-2.5 上实现 10 倍吞吐量提升,模型性能几乎无损失。 最新 1-bit 多模态大模型 KV cache 量化方案CalibQuant来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本,无需改动原模型【更多...】

  • 共 1 页/1 条记录