近日英伟达AI正式开源发布全新三模态大语言模型Nemotron-Labs-Diffusion,该模型创新性融合自回归AR、扩散生成、自投机解码三大核心技术,单步前向推理可输出Token数达到5.99倍,相比通义千问Qwen3-8B的推理效率实现近6倍跃升,或将彻底改变端侧与云端大模型高吞吐部署的现有行业格局。
过去一年大语言模型的吞吐效率瓶颈始终是行业落地的核心堵点——主流7B-8B参数级开源模型单步前向仅能输出1个Token,高并发场景下动辄需要数倍的算力堆叠才能满足需求,极大拉高了中小开发者的调用成本。
当前开源大模型赛道的竞争已经从参数规模比拼转向效率优化,阿里达摩院推出的Qwen3-8B凭借均衡的性能表现已经成为绝大多数端侧部署场景的首选基准模型,但其单步生成1Token的固有架构限制,还是让高吞吐服务场景的算力成本居高不下,行业普遍期待能在不损失生成质量的前提下,推出支持多Token并行生成的全新架构方案。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 分钟前
近日消费电子头部厂商华硕正式对外展示首批搭载英特尔Wildcat Lake处理器的平价AI笔记本产品线,该系列产品主打4000-6000元主流消费定价档位,全系内置专属NPU单元支持7B参数大模型离线运行,可实现离线AI图文生成、AI实时会议纪要等功能,直接对标苹果即将发布的AI向新品MacBook Neo,有望进一步拉低消费级AI终端的入手门槛。

3 分钟前
近日英特尔正式对外公布代号为Project Firefly的全新平价AI笔记本计划,基于下一代Wildcat Lake低功耗平台研发,目标将原生支持端侧大模型的AI PC入门售价压至500美元以下,比当前市场同定位AI产品均价低40%,其主打的端侧AI流畅度将直接对标苹果最新推出的MacBook Neo系列产品。

9 分钟前
全球顶尖专业服务机构毕马威近日正式宣布与AI安全研究企业Anthropic达成全球战略联盟,计划将大语言模型产品Claude全面嵌入核心业务流程,覆盖分布在138个国家和地区的超过27.6万名员工,覆盖审计、税务、咨询等全服务线,这也是当前全球专业服务领域规模最大的AI工具全员部署项目之一。

11 分钟前
近日微软正式发布搭载专属NPU芯片的Surface全系AI PC新品,将Windows 11内置的Copilot深度融入系统底层,同时落地全新端侧AI加密架构,产品平均起售价较上一代提升17%,在本地大模型运行效率和用户数据隐私防护能力上实现大幅跃升,是消费级AI PC赛道近期极具标志性的重磅产品。

13 分钟前
Google DeepMind近日宣布完成Project Genie世界模型的重大版本迭代,正式打通谷歌街景底层数据接口,可生成完全匹配现实地理特征的可交互街道仿真环境。本次升级共适配全球超千万条公开街景点位数据,技术落地场景覆盖机器人训练、开放世界游戏创作、沉浸式文旅三大核心赛道,可动态模拟天气变化、极端路况等特殊场景。

15 分钟前
谷歌在2026年度开发者大会上正式发布全新大模型Gemini 3.5 Flash,作为公司迄今面向编码与智能体场景优化的最强AI产品,该模型支持端到端自主执行复杂任务、从零搭建全栈软件,标志着谷歌的AI战略重心正从成熟的对话式聊天机器人赛道全面转向智能体方向。

17 分钟前
近日谷歌正式宣布完成核心搜索服务的全量AI化重构,将传统基于链接列表的检索体系全面替换为搭载大语言模型的AI原生搜索,融合会话式回答、自主智能体、交互式界面三大核心功能,覆盖全球超40亿月活用户,业内测算该转型或将进一步分流站外内容发布商近三成的流量,彻底改写互联网内容分发规则。

19 分钟前
近日Google正式发布网页版AI Studio的重大功能更新,这款搭载谷歌DeepMind技术能力的开发工具,首次实现零代码场景下原生Android应用的分钟级生成,普通用户无需掌握专业编程知识即可完成全功能应用搭建。据谷歌开发团队公开测试数据,87%的基础需求类应用可在5分钟内完成生成并支持直接实机调试。