紫东太初2.0发布:国内首个全模态多任务千亿大模型登场

8 小时前 AI快讯 0

近日,中国科学院自动化研究所联合武汉人工智能研究院正式推出紫东太初2.0——国内首个全模态多任务大模型,参数规模突破千亿级别。该模型实现了文本、图像、音频、视频等多模态数据的统一理解与生成,多任务处理效率较前代提升40%,有望在智能交互、内容创作、工业质检等数十个场景落地。

在近日的技术发布会上,紫东太初2.0完成了一场极具说服力的跨模态任务演示:仅输入一段“滨海智能码头昼夜作业”的文本描述,模型便在15秒内同步生成了匹配的高清场景图像、专业旁白音频及动态时序视频片段,全程无需调用多个单模态模型协作。这一成果打破了以往多模态AI需要分模块处理的局限。

紫东太初2.0采用自研的“多模态统一表征学习框架”,将文本、图像、音频、视频等不同模态数据映射至同一语义空间,实现了单模型对多模态任务的原生支持。其参数规模突破千亿级别,较1.0版本的百亿参数实现量级跨越;在多模态任务评测中,该模型的跨模态理解准确率较前代提升35%,多任务并发处理效率提升40%。

值得注意的是,模型还支持零样本、少样本学习能力:在工业缺陷检测场景中,仅需10张带标注的缺陷样本图,就能实现98%以上的检测准确率,大幅降低了传统AI模型的训练成本。

当前,多模态大模型已成为全球AI技术攻坚的核心方向。据艾瑞咨询最新报告,2024年国内多模态大模型市场规模将突破80亿元,年复合增长率超120%。除科研机构外,百度文心一言、阿里通义千问、腾讯混元等企业级大模型也纷纷加码多模态能力。

与企业主导的大模型不同,紫东太初系列由中科院自动化所牵头研发,更侧重底层技术的通用性与场景适配性,此前1.0版本已在智慧医疗、智能教育等场景完成试点,累计服务用户超100万人次。

发布会上,项目团队透露,紫东太初2.0已与12家企业达成战略合作,覆盖智能汽车、内容创作、智慧政务三大核心赛道。在智能汽车领域,模型将为车机系统提供“语音+图像+视频”的多模态交互方案;在内容创作领域,为短视频平台提供一站式脚本生成、画面制作、配音合成工具。

此外,团队还计划于2024年第二季度开放通用API接口,降低开发者接入门槛,预计到2024年底,服务的企业客户将突破200家,覆盖15个以上垂直行业。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创