登录体验完整功能(收藏、点赞、评论等) —

微软GitHub推出Rubber Duck 跨模型审查提AI代码性能近75%

2026年4月6日,微软GitHub为旗下Copilot CLI推出名为Rubber Duck的跨模型AI代码审查实验性功能,通过引入“第二意见”独立审查机制,支持用户选用Claude系列作为主控模型、GPT-5.4做代码校验,可解决传统AI自我审查的训练偏差问题,经测试AI代码生成性能提升近75%,有效降低开发过程中早期错误累积风险。

在日常软件开发流程中,不少开发者都有过类似的糟心体验:写代码时一个不起眼的逻辑疏漏,等到后期联调、上线阶段才被排查出来,往往要付出数倍的改造成本。而此前主流的单一模型AI编程助手,受限于自身训练数据的固有偏差,自我审查时很难发现同类逻辑盲区,反而容易把错误“合理化”。

过去几年,以GitHub Copilot为代表的AI编程工具已经成为不少开发者的标配,代码生成效率提升的同时,出错率高、审查能力不足的问题也逐渐暴露。
根据SWE-Bench Pro基准测试的公开数据,Claude Sonnet 4.6、Opus 4.6等主流大模型在独立完成代码生成+自我审查的全流程时,不仅存在显著的性能波动,对特定场景下的逻辑错误漏判率更是超过30%,很难满足工业级开发的稳定性要求。

此次推出的Rubber Duck实验功能,核心是引入了**跨模型“第二意见”审查机制**,打破了传统单一模型“既当运动员又当裁判员”的逻辑。用户可以自主选择Claude系列模型作为主控负责生成代码,再调用GPT-5.4作为独立审查方完成校验,两类模型的训练数据、逻辑偏好存在明显差异,刚好可以互补盲区。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创