新闻动态
-
-
发布日期:2025-04-13 10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原
在 InternVL-2.5 上实现 10 倍吞吐量提升,模型性能几乎无损失。 最新 1-bit 多模态大模型 KV cache 量化方案CalibQuant来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本,无需改动原模型【更多...】
在 InternVL-2.5 上实现 10 倍吞吐量提升,模型性能几乎无损失。 最新 1-bit 多模态大模型 KV cache 量化方案CalibQuant来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本,无需改动原模型【更多...】