Magi是Sand.ai推出的大规模自回归视频生成系列模型,当前最新迭代版本为Magi-1.1,是行业首款可输出顶级质量内容的自回归视频生成模型。不同于多数闭源AI视频工具,Magi同步开放官方技术报告、推理代码与完整模型权重,支持用户自由二次开发与本地化部署,在生成画面清晰度、时序连贯性、内容可控性上均处于行业第一梯队,可大幅降低高品质AI视频的生成门槛,适配商用、研究、创意创作等多类场景需求。
Magi生成的视频内容可实现2K-4K级高清分辨率,时序连贯性远超同类开源视频模型,10秒以上长视频无明显帧闪烁、逻辑断层问题。支持生成写实风景、虚拟人物、创意动画、科幻场景等多类风格内容,输出效果可媲美头部闭源AI视频生成工具,生成的素材可直接用于短视频创作、广告宣传、概念样片制作等场景。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
23 天前
2026年4月,国产大模型开发团队DeepSeek推出的V4系列模型,在第三方测评机构SuperCLUE的中文大模型综合评测中取得领跑成绩。其中DeepSeek-V4-Pro以70.98分的综合得分重夺国内中文大模型第一,DeepSeek-V4-Flash以68.82分紧随其后,本次测评覆盖六大核心能力维度,两款模型得分均显著领先国内同类开源模型,验证了国产开源大模型的技术进阶。

24 天前
2026年4月,OpenAI推出面向个人身份信息(PII)脱敏的开源大模型Privacy Filter。该模型参数规模1.5亿,采用混合专家(MoE)架构,支持最高12.8万Token上下文窗口,以Apache 2.0协议上架Hugging Face与GitHub,允许开发者免费商用与二次定制。模型依托深度语义理解识别非结构化文本敏感信息,性能超越传统规则类脱敏工具。

26 天前
2026年4月24日,社交平台Soul旗下AI研发机构Soul AI Lab宣布开源业内首个14亿参数实时数字人生成模型SoulXFlashTalk。该模型可实现亚秒级交互延迟、每秒32帧高帧率输出,本次开放包含项目页面、技术报告、源代码与模型权重全套资源。此前Soul已开源语音合成模型SoulXPodcast,此举进一步完善了其“语音+视觉”双模态开源布局,将有效降低行业研发门槛。

1 个月前
2026年4月,腾讯混元团队正式开源面向少步蒸馏视频生成模型的加速方案DisCa,该方案通过可学习特征缓存技术突破传统缓存方案的误差瓶颈,在保证生成质量的前提下,实现最高11.8倍的推理加速,相关成果已被国际计算机视觉顶会CVPR 2026收录,目前完整代码与模型权重已对外开放供行业开发者测试使用。

1 个月前
2026年4月,微软正式开源全新多模态推理模型Phi-4-reasoning-vision-15B,该模型参数规模仅15B,全程仅用200B高质量多模态token训练完成,主打轻量化路线,在科学推理、复杂视觉任务上实现了优异表现,可为资源受限的部署场景提供低成本多模态AI方案,填补了小参数模型复杂推理能力的市场空白。

1 个月前
2026年4月,京东探索研究院正式开源自研图像编辑模型JoyAI-Image-Edit。作为业内首个主打“空间智能”的开源图像编辑产品,该模型可精准理解物理空间规律,支持相机参数调节、物体空间位移等三维编辑操作,开发者可直接调用代码实现保持场景几何一致性的图像修改,填补了开源图像模型的空间能力空白。

1 个月前
近日谷歌正式为旗下轻量视频创作工具Google Vids推送重大AI功能更新,本次升级依托Google Gemini大模型底层能力,新增脚本自动生成、素材智能匹配、一键风格转译等多项实用功能,可将普通用户的视频制作耗时缩短最高达70%,无需专业剪辑基础即可完成商宣、科普、生活记录等多品类短视频制作。

1 个月前
2026年3月,微软正式开源前沿语音AI模型家族VibeVoice,该模型同时覆盖自动语音识别(ASR)与文本转语音(TTS)两大场景,可单次处理最长90分钟的多说话人对话,具备实时低延迟特性。项目上线GitHub后迅速引发全球开发者关注,目前已收获27K Star,采用MIT许可协议,支持本地免费部署,旨在推动语音AI领域的协作开放创新。