登录体验完整功能（收藏、点赞、评论等） — 已累计有 8990 人加入

NVIDIA推出NVFP4 4位预训练法 12B混合模型验证落地

AI创作导航 52 分钟前

风向

9

收藏

5月18日，NVIDIA正式公布面向大语言模型预训练的全新4位精度技术方案NVFP4。该方案通过前沿架构模型完成可行性验证：基于120亿参数的混合Mamba-Transformer模型，在累计处理10万亿token数据的基准场景下，NVFP4将预训练阶段的显存占用大幅压缩，同时未显著损失模型性能，为大模型训练的成本控制提供突破性路径，填补了低位精度预训练在混合架构领域的实践空白。

当前大语言模型的参数规模快速扩张，从早期数十亿级向千亿级、兆级进阶，但预训练阶段的核心瓶颈始终是显存占用过高：传统FP16、FP8等精度格式虽保障性能，却让训练成本直线上升，中小团队难以负担。尤其是混合Mamba-Transformer这类兼顾序列高效性与通用建模能力的创新架构，低位精度预训练的技术落地长期存在门槛。

NVIDIA本次推出的NVFP4 4位预训练法，核心突破是优化了低位浮点表示的数值稳定性。不同于传统静态量化的固定缩放策略，NVFP4采用自适应浮点缩放机制，能在4位比特宽度下动态调整数值范围，尽可能保留训练过程中的梯度信息，避免了低位精度训练常见的梯度消失、性能暴跌问题，扫清了低位精度在预训练阶段的应用障碍。

大语言模型 NVIDIA 大模型训练 NVFP4 混合Mamba-Transformer

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

相关网站

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Animate Anything AI

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具

相关资讯

© 2026 AI创作导航. All Rights Reserved.

滇ICP备2026002425号-1 公安备案图标

公安备案图标

滇公网安备 53252802528133号