2026年4月,AI公司DeepSeek发布新一代大语言模型DeepSeek-V4仅10小时后,北京大学DCAI团队就通过全新开源的One-Eval评测框架,产出了该模型的全量自动化评测报告。长期以来,大模型评测流程繁琐、数据污染问题频发,是行业公认的痛点,此次One-Eval实现的效率突破,被认为是评测领域的范式级升级,引发AI工程界广泛关注。
长期以来,大模型评测都是AI工程领域公认的“噩梦”。在传统工作流程中,第三方机构或开发者要完成一款新大模型的全量评测,需要从零完成筛选基准测试集、编写适配脚本、调整模型字段输出、解析运行日志等一系列工作,超过七成的精力会被消耗在搭建测试管道上,真正用于分析模型能力的时间占比极低。
除了效率低下,行业还面临三大核心痛点:一是操作门槛高,参数配置稍有误差就会导致评测失败,程序容错率极低;二是打分不透明,最终结果更像一个无法追溯的黑盒,开发者难以定位模型能力短板;三是普遍存在的数据污染问题——部分大模型在训练阶段已经接触过公开测试数据集,导致虚高得分无法反映真实能力,直接拉低了行业评测榜单的公信力。
此次事件刷屏AI圈的核心,不只是DeepSeek-V4本身的性能升级,更是北大团队交出测评答卷的惊人速度:从模型公开发布到全量自动化评测报告产出,仅用时10小时。这样的速度在传统评测体系下根本无法实现,而支撑这一速度的核心,就是北大DCAI团队最新开源的One-Eval评测框架。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
50 分钟前
开发平台GitHub近日宣布将旗下热门AI编程工具GitHub Copilot切换为按使用量计费模式,替代此前执行多年的统一费率订阅制。该调整源于AI智能体工作流普及带来的算力需求大幅上涨,业内认为这一变动标志着企业AI工具将迎来全新成本模型,要求企业CIO重新规划AI预算与治理框架,将影响全球超千万开发者及大量科技企业的AI采购策略。

1 小时前
中国科技公司小米近日面向开发者社区开放了MiMo-V2.5系列大模型,该模型采用MIT宽松开源许可协议发布,主打长周期运行AI智能体开发场景,配备100万token的上下文窗口,采用稀疏混合专家(MoE)架构设计,主要服务开发自主编码、工作流智能体的开发者群体,填补了开源领域长运行智能体基座模型的细分空白,引发全球AI开发社区广泛讨论。

1 小时前
OpenAI近期推出面向企业编码智能体的全新Symphony技术规范,旨在将AI的角色从辅助代码生成的单点工具,升级为软件交付全流程中的可编排核心组件。行业调研数据显示,当前超过62%的全球科技企业已经将生成式AI引入开发环节,但仅18%的企业实现了AI在开发全流程的落地,Symphony被业内认为有望填补这一落地断层。

2 小时前
2026年4月,谷歌正式在印度安得拉邦维沙卡帕特南启动千兆瓦级AI数据中心项目建设,计划未来五年总投资超150亿美元,联合印度本土企业Nxtra by Airtel、AdaniConneX打造印度首个该规模的AI算力基础设施。项目将服务印度“发达印度”发展计划,同时配套扩展光纤网络,优先接入清洁能源,助力印度实现2030年500吉瓦非化石能源目标。

2 小时前
2026年4月,业内传出国产AI厂商月之暗面的新产品动向,该公司计划于今年第三季度推出新一代大语言模型Kimi K3,其参数规模有望达到2.5万亿,超过DeepSeek V4 Pro的1.6万亿与百度文心5.0的约1万亿参数,上下文窗口也将提升至100万字级别,再次拉高了国产大模型算力竞赛的竞争门槛。

3 小时前
生成式AI的端侧落地浪潮,正在推动Web前端开发领域从过去的框架之争转向底层架构选择。行业研究者提出,当前AI驱动的Web应用正面临“响应式、超媒体、本地优先”前端架构三元悖论,三者核心目标冲突难以同时优化,据最新行业调研数据,目前全球超62%的生成式AI前端开发团队已启动架构选型重评估。

3 小时前
近日,美国加州大学圣克鲁兹分校研究团队开发出名为Neo的人工智能图像修复算法,可消除大气湍流造成的地面观测图像模糊,应用于智利薇拉·C·鲁宾天文台的地面望远镜后,其拍摄成像清晰度达到太空望远镜同等水平。测试显示,Neo可将天体形态参数测量准确度提升2至10倍,有望大幅加速各类天文发现进程。

3 小时前
2026年4月28日,美图公司旗下AI智能体产品RoboNeo正式接入阿里巴巴ATH创新事业部研发的多模态视频生成模型HappyHorse,结合自身Seedance 2.0技术完成视频创作能力的全面迭代。瑞银发布的行业报告显示,RoboNeo自2025年7月上线后增长迅猛,2026年3月全球环比增长近4倍,曾多次登顶多国应用商店下载榜单。