近日,中国科学院自动化研究所联合武汉人工智能研究院正式推出紫东太初2.0——国内首个全模态多任务大模型,参数规模突破千亿级别。该模型实现了文本、图像、音频、视频等多模态数据的统一理解与生成,多任务处理效率较前代提升40%,有望在智能交互、内容创作、工业质检等数十个场景落地。 在近日的技术发布会上,紫东太初2.0完成了一场极具说服力的跨模态任务演示:仅输入一段“滨海智能码头昼夜作业”的文本描述,模型便在15秒内同步生成了匹配的高清场景图像、专业旁白音频及动态时序视频片段,全程无需调用多个单模态模型协作。这一成果打破了以往多模态AI需要分模块处理的局限。 紫东太初2.0采用自研的“多模态统一表征学习框架”,将文本、图像、音频、视频等不同模态数据映射至同一语义空间,实现了单模型对多模态任务的原生支持。其参数规模突破千亿级别,较1.0版本的百亿参数实现量级跨越;在多模态任务评测中,该模型的跨模态理解准确率较前代提升35%,多任务并发处理效率提升40%。 值得注意的是,模型还支持零样本、少样本学习能力:在工业缺陷检测场景中,仅需10张带标注的缺陷样本图,就能实现98%以上的检测准确率,大幅降低了...