菲利普·拉班及其研究团队最新测试显示,即便GPT-5及后续版本的AI大语言模型,在跨多轮对话完成任务时仍存在显著性能短板:当任务信息拆分至多条消息中,模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大,同时建议用户遇到异常时可开启新对话并先让模型总结请求。
不少AI大模型用户或许都有过类似经历:把一个复杂需求拆分到多条消息里逐次发送,得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验,如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。
研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务,对新旧两代大语言模型展开对比测试。测试设置了两种场景:一种是将所有任务信息集中在单次提示词中(拼接式输入),另一种是拆分至多条消息分轮发送(分片式输入)。
结果显示,当采用分片式输入时,早期大模型的性能出现最高39%的大幅下滑;即便是GPT-5及后续更新的模型,性能降幅依然维持在33%左右,这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。
在六大测试任务中,模型的性能下滑表现呈现出明显差异化。其中,数学计算、文本摘要等任务在跨轮对话中的性能衰减相对稳定,而Python代码生成任务成为优化空间最大的领域——研究人员发现,针对该任务调整跨轮输入的策略后,模型性能提升最为明显。
这种差异化背后,或许与不同任务对上下文信息的依赖程度有关:Python代码任务往往需要清晰的逻辑链条,当信息分轮传递时,模型更易通过针对性优化捕捉关键逻辑,而数学计算等任务对零散信息的整合要求更高,因此更难突破瓶颈。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
9 小时前
最近针对美国12-18岁青少年的调研显示,近62%的受访对象使用过ChatGPT、Google Gemini、DeepSeek等AI产品的陪伴类功能,超过3成受访青少年会向AI倾诉不愿告知家长、同学的私密情绪,AI正成为Z世代社交版图中不可忽视的新角色,相关行为也引发了学界对青少年社交模式变化的广泛讨论。

1 天前
近期,科技巨头微软针对旗下AI助手Copilot发布官方用户提示,明确不建议用户在高风险场景下过度依赖该工具。作为微软过去5年重点布局的核心AI产品,Copilot已覆盖Windows系统、Office办公套件、Azure云服务等全产品线,此前累计投入相关研发推广资源超100亿美元,此次态度转向引发AI产业对通用助手落地边界的广泛讨论。

1 天前
2026年4月4日,大模型厂商Anthropic正式官宣生态政策调整:从美国东部时间4月4日15点(北京时间4月5日3点)起,旗下Claude大模型将禁用OpenClaw等第三方工具,用户后续仅能通过额外付费套餐或Claude API Key调用相关工具。该政策将率先在OpenClaw落地,未来覆盖全部第三方工具链,是大模型厂商收紧生态控制权、加速商业化的标志性动作。

2 天前
Rainmaker Securities总裁Glen Anderson最新披露,当前全球私人股权二级市场活跃度创下历史峰值,AI创企Anthropic成为最受追捧的交易标的,同赛道头部企业OpenAI交易热度出现明显下滑,而SpaceX临近的IPO计划,或将对整个一级科技创投市场的资金流向产生颠覆性影响。

2 天前
近期Meta、微软、谷歌等海外头部科技企业相继公布天然气电厂建设计划,为旗下高速扩张的AI数据中心提供稳定电力支撑。随着生成式AI普及,单座AI算力中心能耗是传统数据中心的3-5倍,现有公共电网已难以满足企业爆发式算力供电需求,化石能源供电方案也引发了业内对碳目标达成、长期运营风险的广泛讨论。

2 天前
谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

2 天前
2026年美国中期选举进入倒计时阶段,头部大模型企业Anthropic近日宣布成立全新政治行动委员会(PAC),计划定向支持认同其分级AI监管、算力资源倾斜、AIGC版权保护等政策议程的议员候选人。此次动作是头部AI企业从技术研发向政策上游延伸的标志性事件,也意味着全球AI行业的政策博弈进入白热化阶段。

2 天前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。