2026年3月31日,小米创办人、董事长兼CEO雷军公开披露,旗下自研大模型MiMo-V2-Pro在权威大模型评测平台Text Arena的Model Rank维度跻身全球前五,位列Anthropic、OpenAI、Google之后。该评测采用双盲测试机制,由全球真实用户匿名投票排名,彻底杜绝传统评测常见的刷榜行为,排名含金量远高于常规专项数据集评测结果。
近两年大模型行业竞速过程中,“针对评测数据集定向优化刷榜”早已成为公开的潜规则。不少厂商对外公布的榜单排名亮眼,但用户实际使用时却频频出现逻辑混乱、指令理解偏差、上下文记忆断裂等问题,评测结果和真实体验的严重割裂,也让不少行业榜单的公信力持续下滑,用户对“纸面成绩”的认可度越来越低。
素有“大模型高考”之称的Text Arena之所以能获得行业认可,核心就在于其独特的双盲测试机制:评测过程中所有模型身份完全隐藏,参与测试的全球用户仅根据回答质量即时投票,完全不存在针对数据集定向优化的刷榜空间。
这次MiMo-V2-Pro能跻身全球前五,核心优势集中在复杂逻辑推理、长指令遵循、多轮对话连贯性三个普通用户最在意的体验维度,排名仅次于Anthropic、OpenAI、Google三家海外头部大模型厂商。雷军在社交平台分享该消息时特意强调,这次的成绩没有任何刷榜水分,完全是全球用户用真实体验投出来的结果。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
50 分钟前
2026年4月业内消息显示,随着Anthropic、OpenAI等厂商迭代新一代AI编程模型,代码编辑器Cursor加速普及,企业软件开发领域出现全新的代码过剩问题。谷歌调研数据显示当前90%软件开发者已使用AI编程工具,代码产能大幅提升的同时,人工审核、安全校验能力严重滞后,大量企业出现未处理代码积压,原有开发流程面临重构。

1 小时前
伴随Agentic AI(智能体人工智能)落地速度加快,自动化工具的误用风险正在快速上升。本次梳理出2026年职场人最易踩中的5类AI自动化使用错误,该类错误轻则拖慢工作效率、引发同事不满,重则触发数据泄露、团队信任崩塌,甚至直接损害个人职业声誉,相关避坑指南已成为当前职场AI应用领域的关注热点。

2 小时前
近日,芯片厂商Intel被曝正在研发下一代移动处理器Serpent Lake,该芯片集成对标Nvidia RTX系列显卡的独立级AI计算单元,推理算力较当前14代酷睿提升300%,可本地运行70B参数大语言模型,有望2025年第二季度上市,为PC端AI应用普及带来硬件层面的重大突破。

6 小时前
4月6日,小米MiMo大模型负责人罗福莉在海外社交平台X公开发文,结合此前Anthropic宣布Claude封禁OpenClaw等第三方工具、小米MiMo推出分层Token定价套餐的行业动态,系统拆解Agent场景下的算力分配与大模型定价逻辑,驳斥当前行业盲目开展价格战的短视行为,引发AI产业界对大模型健康商业化路径的广泛讨论。

7 小时前
2026年4月,亚马逊创始人杰夫·贝索斯旗下全新神秘AI实验室Project Prometheus宣布前OpenAI联合创始人Kyle Kosic正式入职。该实验室专注于开发可理解物理世界的先进人工智能系统,旨在突破现有大模型技术边界,打造更高自主性的智能系统,标志着贝索斯在AI前沿领域的布局进入落地阶段。

7 小时前
4月7日,AI大模型厂商Anthropic官方披露其年化收入(ARR)已突破300亿美元,首次反超竞争对手OpenAI同期250亿美元的年化收入水平。该公司2025年末年化收入仅为90亿美元,3个多月内收入规模大涨约210亿美元,同时同步官宣最新AI芯片采购大单,引发全球AI产业对大模型商业化格局的广泛讨论。

9 小时前
2026年4月,欧洲头部人工智能企业Mistral AI联合创始人兼CEO Arthur Mensch访韩期间,与三星电子副董事长兼CEO全永铉及核心高层会晤,双方重点围绕AI半导体存储芯片供应链、技术协同方案展开磋商。Mistral AI正寻求稳定XPU算力芯片供应以支撑模型迭代,三星在高带宽内存...

9 小时前
2026年4月,OpenAI首席执行官山姆·奥特曼在公开专访中首度回应文生视频模型Sora停用传闻,明确表示关停并非源于技术瓶颈,而是公司当前存在极大算力缺口,有限的芯片资源将优先供给GPT系列大模型迭代等更高优先级项目,Sora因内部优先级排位靠后遭遇资源挤兑暂时下线。