2026年6月4日,原生多模态大模型LongCat-Next及配套离散分词器正式开源。该产品针对当前大模型普遍采用的“语言为核心、外挂视觉/语音模块”的拼凑式异构架构痛点,创新性采用DiNA离散原生自回归架构,实现多模态信息同源建模,让AI可像处理文本一样原生理解视觉、语音信息,打破跨模态技术壁垒。
如果你用过市面上的多模态AI产品,大概率遇到过这类问题:给它看一张带多个手写公式的图片,它能识别文字却读不懂公式逻辑;和它语音对话时,明明带了开玩笑的语气,它却只会按照字面意思刻板回复。这些问题的根源,恰恰是现有多模态大模型的拼接式架构缺陷。
当前主流多模态大模型普遍采用“语言底座+外挂感知模块”的架构,本质是将视觉、语音信号先转化为符合文本语义空间的嵌入向量,再输入大语言模型处理,相当于AI需要先把非文本信息“翻译”成自己能懂的文字才能处理。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录