2026年5月22日,国内人工智能企业智谱正式面向部分企业客户推出GLM-5.1高速版API,由智谱GLM团队与TileRT团队联合研发的这款大模型实现了400tokens/s的输出速度,直接刷新全球大模型公开API的速度纪录,首次打破了行业中长期存在的“大模型运行速度与性能不可兼得”的固有认知,为高并发大模型落地场景提供了全新的技术方案。
不少使用过大模型API的企业开发者都有类似体验,在高峰期的高并发场景下,原本输出顺畅的大模型经常会出现几十秒的卡顿,生成长文档、批量处理请求时等待体验极差,要提速往往只能切换性能更低的小参数模型,始终找不到两全的解决方案。
过去很长时间里,整个AI行业形成了一个近乎默认的共识:大模型的输出速度和模型的参数规模、生成质量成反比。市面上主流的通用级大模型API输出速度普遍维持在80-150tokens/s区间,想要获得200tokens/s以上的输出效率,几乎只能选用7B参数以下的轻量化模型,代码生成、复杂逻辑推理等核心能力都会出现明显折损,很多对响应速度和生成质量都有要求的场景始终无法落地。
GLM-5.1高速版的出现直接推翻了这一行业默认规则,它没有通过削减模型参数、裁剪上下文窗口、降低生成精度这类牺牲核心能力的方式换速度,而是在保留了旗舰级大模型全量能力的前提下,实现了此前小模型都很难达到的输出效率,彻底打破了“快等于小”的行业惯例。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
5 小时前
2024年下半年以来,全球AI赛道迎来新一轮产品迭代潮:OpenAI下一代大模型GPT-5研发进入收尾阶段,Google Gemini全端覆盖用户突破10亿,苹果Apple Intelligence随新系统正式推送,国内厂商DeepSeek、Perplexity等垂直类AI工具月活涨幅超60%,AI代理、AI PC等新形态应用也从概念走向落地,全行业商业化进程持续提速。

6 小时前
近日独立AI创作者借助OpenAI GPT-4o、DeepSeek大模型等工具,成功复刻科幻名作《挽救计划》(Project Hail Mary)的全星系恒星地图,经原著爱好者联合校验,该星图对书中提及的12万颗天体坐标还原度达99.7%,误差控制在0.3%以内,远超此前所有同人衍生内容的制作精度,成为近期生成式AI落地小众创作领域的标杆案例。

6 小时前
全球科技巨头Meta近期正式启动基于生成式AI改造Facebook Groups的新项目,推出对标社区平台Reddit的全新兴趣社交产品。该产品集成Meta自研Llama 3大语言模型,首批灰度测试已经覆盖超过1.2亿原有Facebook群组活跃用户,主打AI驱动的内容自动化治理与兴趣匹配功能,意图抢占近年持续升温的垂直兴趣社区赛道。

7 小时前
B站于2026年5月发布的第一季度财报显示,公司单季总营收达74.7亿元同比增长7%,首次实现净利润2.02亿元正式扭亏,经调整净利润5.85亿元同比大增62%。B站CEO陈睿将AI定义为历史性增长机遇,本季度广告收入25.9亿元同比激增30%,AI全链路赋能成为核心驱动因素,为国内内容平台的AI商业化落地提供了可参考的全新样本。

7 小时前
近日Mozilla正式宣布旗下火狐浏览器将启动代号为Project Nova的大规模版本重构项目,计划于2026年下半年逐步向全量用户推送升级。本次升级围绕界面现代化、隐私控制、生产力三大方向优化,最核心的更新是设置页新增全局统一开关,用户可一键关停浏览器内置的当前及未来所有AI相关功能,进一步强化用户对数据隐私的自主控制权。

7 小时前
国内头部大模型厂商DeepSeek近期官宣累计融资额突破700亿元,管理层正式对外披露全新战略方向,不再将短期商业化收益作为核心考核目标,集中全部资源攻坚前沿AI技术,其中面向开发者的编程专属大模型DeepSeek Code已进入落地筹备阶段,相关配套的Agent Harness技术团队招聘工作也已全面启动。

7 小时前
近日,科技巨头Meta正式与美国肯塔基州布雷希特县学区达成和解,这是全美首例由学区发起的社交媒体青少年成瘾相关诉讼的和解结果。此前同案的YouTube、Snap、TikTok均已与原告达成协议,原告曾提出超6000万美元的15年心理健康专项赔偿要求,原定于6月12日开启的联邦庭审随之正式取消。

7 小时前
2026年5月,潮流电商平台得物公开其基于AI Coding工具Claude Code的数仓开发落地实践,团队在将重复性开发工作效率提升超40%的过程中,也定位到长对话上下文遗忘、规则执行稳定性不足两大核心痛点,实测数据显示AI生成SQL的数据偏差最高可达1000倍,为全行业企业级AI开发工具落地提供了极具参考性的真实样本。