美团发布原生多模态LongCat-Next 突破架构瓶颈实现模态底层统一

AI创作导航 3 天前

AI快讯

2026年4月3日，美团技术团队正式发布原生多模态大模型LongCat-Next，该产品依托自主研发的DiNA（离散原生自回归）架构，突破传统“语言基座+插件”的拼凑式架构局限，实现图像、语音、文本的同源离散Token转化，视觉分词器压缩比达28倍，可原生实现对物理世界的“看”“听”能力，为多模态大模型发展提供了新的技术路径。

在过去两年的多模态大模型研发浪潮中，“语言基座加外挂插件”几乎是所有厂商的标配路线——先用成熟的通用大语言模型做核心，再单独接入视觉、语音的识别模块，通过接口适配实现多模态能力。但这种拼凑式架构的短板也十分明显：模态间数据传输损耗大、跨模态理解精度受限、落地场景的适配成本居高不下。

美团此次推出的LongCat-Next，核心思路就是从底层打破模态之间的壁垒，不再把视觉、语音当成语言基座的外接功能，而是将所有模态的信息统一转化为同源的离散Token，让AI可以用处理文本的同一套逻辑处理图像、语音信息，真正实现原生的“看”“听”能力。

支撑LongCat-Next实现底层突破的核心，是美团自研的DiNA离散原生自回归架构，三大技术特性从根本上重构了多模态建模的逻辑：
一是全模态参数统一，无论输入是文字、图像还是音频，模型都采用同一套参数、注意力机制和损失函数，无需为不同模态单独开发适配模块，大幅降低训练和部署成本。
二是理解与生成能力对称，在统一的数学形式下，模型预测文字Token即为“理解”，预测图像、音频Token即为“生成”，两类任务在训练过程中可形成协同效应，互相提升效果。
三是高保真极致压缩，配套自研的dNaViT视觉分词器支持任意分辨率输入，通过8层残差向量量化实现最高28倍的像素空间压缩，同时完整保留OCR、财报解析等对精度要求较高的任务所需的关键细节，避免压缩导致的信息损耗。