登录体验完整功能(收藏、点赞、评论等)

美团发布原生多模态LongCat-Next 突破架构瓶颈实现模态底层统一

2026年4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next,该产品依托自主研发的DiNA(离散原生自回归)架构,突破传统“语言基座+插件”的拼凑式架构局限,实现图像、语音、文本的同源离散Token转化,视觉分词器压缩比达28倍,可原生实现对物理世界的“看”“听”能力,为多模态大模型发展提供了新的技术路径。

在过去两年的多模态大模型研发浪潮中,“语言基座加外挂插件”几乎是所有厂商的标配路线——先用成熟的通用大语言模型做核心,再单独接入视觉、语音的识别模块,通过接口适配实现多模态能力。但这种拼凑式架构的短板也十分明显:模态间数据传输损耗大、跨模态理解精度受限、落地场景的适配成本居高不下。

美团此次推出的LongCat-Next,核心思路就是从底层打破模态之间的壁垒,不再把视觉、语音当成语言基座的外接功能,而是将所有模态的信息统一转化为同源的离散Token,让AI可以用处理文本的同一套逻辑处理图像、语音信息,真正实现原生的“看”“听”能力。

支撑LongCat-Next实现底层突破的核心,是美团自研的DiNA离散原生自回归架构,三大技术特性从根本上重构了多模态建模的逻辑:
一是全模态参数统一,无论输入是文字、图像还是音频,模型都采用同一套参数、注意力机制和损失函数,无需为不同模态单独开发适配模块,大幅降低训练和部署成本。
二是理解与生成能力对称,在统一的数学形式下,模型预测文字Token即为“理解”,预测图像、音频Token即为“生成”,两类任务在训练过程中可形成协同效应,互相提升效果。
三是高保真极致压缩,配套自研的dNaViT视觉分词器支持任意分辨率输入,通过8层残差向量量化实现最高28倍的像素空间压缩,同时完整保留OCR、财报解析等对精度要求较高的任务所需的关键细节,避免压缩导致的信息损耗。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创