近日,针对大语言模型(LLM)部署场景中普遍存在的GPU算力闲置、资源错配问题,技术从业者提出全新的负载拆分优化方案:通过将LLM推理任务拆解为提示词处理池和生成任务池两个独立调度队列,无需新增任何硬件即可将GPU利用效率提升100%,该方案被类比为AI推理的专属快慢车道,适配各类生成式AI商用场景。
生成式AI商用落地的热潮下,GPU算力缺口已经成为制约行业发展的核心瓶颈之一。一方面,高端GPU采购成本居高不下,流通环节溢价普遍超过30%,中小AI团队甚至很难抢到稳定的算力资源;另一方面,大量已部署的GPU资源却处于严重浪费状态,第三方调研显示,多数企业自研LLM业务的GPU平均利用率不足30%,算力浪费直接推高了AI服务的运营成本。
传统的LLM推理调度模式中,提示词处理、内容生成两个环节共享同一GPU资源,两类任务的算力需求差异极大,很容易出现高算力资源被低负载任务长期占用的情况,最终导致整体算力效率偏低。
这次提出的优化方案,核心逻辑是打破传统LLM推理的统一调度模式,根据任务特性拆分出两个独立的资源池。
其中提示词处理属于计算密集型任务,需要在短时间内调用大量算力完成输入语义的理解,适配高算力的“快车道”资源池;而后续的内容生成属于内存密集型任务,算力需求仅为提示词处理的1/5左右,适配低负载的“慢车道”资源池。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
19 分钟前
2026年以来,全球天文领域正大规模落地AI星系探测技术,科研团队依托GPU算力支撑,可快速从PB级星际观测数据中筛选出微弱的未知天体信号。这类新增科研算力需求,已成为继大语言模型训练、AIGC内容生产之后,全球GPU供应缺口扩大的新诱因,当前高端通用GPU交付周期已延长至14个月,高端H100芯片市场溢价率超40%。

48 分钟前
4月21日MIT Technology Review资深记者Mat Honan发布专题报道指出,2026年全球AI应用渗透率已突破72%,覆盖办公、消费、公共服务等全场景,但伴随隐私争议、岗位替代焦虑、信息过载等问题持续发酵,公众对AI的正面认可度较2023年峰值下跌28个百分点,全球AI产业首次进入业界所称的“AI倦怠期”。

54 分钟前
2026年4月,AI大模型厂商Anthropic正式发布Claude Cowork桌面端第三方API配置指南,支持企业IT管理员在Amazon Bedrock、Google Cloud Vertex AI、Azure AI Foundry三大主流云平台快速完成企业级部署,产品已兼容macOS 13....

58 分钟前
2026年4月23日,腾讯混元正式发布并开源基础设施重建后的首个大模型产品Hy3 preview。该模型为融合快慢思考逻辑的混合专家模型,总参数达295B,激活参数21B,最大支持256K上下文长度,在复杂推理、指令遵循、智能体等多维度能力上实现显著提升,主打全场景实用性。

1 小时前
2026年4月23日,腾讯正式发布混元系列最新开源大语言模型Hy3 Preview,该模型总参数达295亿,在复杂推理、指令遵循、代码处理等维度表现实现显著提升,研发阶段坚持实用性、真实评测、高性价比三大原则,目前已接入多款腾讯自有产品,同时兼容主流开源智能体工具,为开发者提供了新的高性价比选型。

1 小时前
Alphabet首席执行官桑达尔·皮查伊近日披露,谷歌内部超75%的新增代码已由人工智能自动生成,标志其“AI优先”战略落地取得实质性突破。该比例2025年4月仅为30%,一年间涨幅超150%,所有AI生成代码仍需经过专业开发工程师严格审核以保障安全。2026年Alphabet预计全年资本支出将达1750亿美元,持续加码AI底层布局。

1 小时前
2026年4月,腾讯正式推出新一代AI大模型混元3.0(内部代号Hy3),在AI专家姚顺雨带领的研发团队推动下,其编程能力实现突破性提升,SWE-Bench编程测试得分达74.4%,较上一代混元2.0提升超40%,目前该模型以Hy3preview名义在OpenRouter平台免费开放体验,已跻身国内大模型第一梯队。

1 小时前
2026年4月23日,人工智能企业OpenAI正式推出ChatGPT自主「工作区代理」研究预览功能,该产品为自定义GPT功能的深度迭代版本,依托Codex算力实现云端自主运行,目前已面向ChatGPT企业版、教育版、团队版及教师版用户开放,支持跨第三方办公工具联动,可实现无代码触发自动化任务流。