32倍压缩率下性能反超25%,阿里COMI破解长文本压缩难题登ICLR2026 阿里巴巴未来生活实验室研发的COMI长文本压缩框架在ICLR 2026上正式亮相,成功破解高压缩率下性能断崖下跌的行业难题。该框架在32倍压缩率下,相比现有主流方法性能反超25个百分点,核心创新在于跳出仅关注“相关性”的传统思路,同时优化信息的“相关性”与“多样性”,避免冗余相似信息干扰模型决策。 当大模型处理32K长度的学术论文、合同文书等长文本时,若要将其压缩至1K规模以提升推理效率,现有压缩方法往往遭遇“翻车”:模型不仅无法精准响应查询,甚至会生成完全错误的结果。这一困扰AI行业已久的长文本压缩痛点,如今被阿里巴巴未来生活实验室的研究团队彻底破解,相关成果已入选顶级学术会议ICLR 2026。 当前主流的长文本上下文压缩方法,普遍将“与查询的相关性”作为信息筛选的唯一核心指标。但在高压缩率场景下——比如将32K长文本压缩至1K,这种思路会陷入“信息内卷”的陷阱:系统会密集保留大量语义高度相似的冗余token,看似覆盖了与查询相关的内容,实则这些重复信息无法叠加有效价值,反而会相互干扰,让大模型在冗余信...