Sup AI是当前公开测试中准确率最高的通用大模型产品,核心定位是低幻觉、科研级精度的AI助手。它在行业公认的高难度测试“人类终极测试(HLE)”无工具辅助场景下拿到52.15%的准确率,领先第二名14.63个百分点,是该测试目前的榜首产品。不同于普通大模型,Sup AI会对输出的每一项内容进行数学校验,大幅降低幻觉发生率,适配对信息准确性要求高的专业场景。它集成339个不同的活跃大模型,通过多项自研技术保障输出可靠性,综合表现远超单一模型产品。
在专业学术问题回答场景下,Sup AI的回答准确率比主流大模型高14%以上,不会出现普通大模型常见的编造参考文献、捏造数据的问题;在跨领域知识查询场景下,覆盖100+学科的HLE测试验证了它的全领域知识准确性,各类专业问题的回答准确率均优于同类产品;在长文本处理场景下,依托无损上下文压缩技术,处理数万字长文档时仍能保持信息提取的准确率,不会出现上下文遗漏或错漏。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
13 天前
2026年3月31日,微软正式为Microsoft 365 Copilot的研究员工具模块上线全新Critique功能,首次实现OpenAI GPT与Anthropic Claude两大主流大模型跨生态协同工作,搭配独创的“理事会”多智能体校验机制,经DRACO测试验证,其复杂学术任务处理效果显著优于任意单一模型,可大幅降低AI生成内容的幻觉发生率。

1 小时前
2026年4月,资深科技撰稿人Will Douglas Heaven在《MIT技术评论》发文指出,当前全球AI领域的公众观点分歧正在急剧扩大,核心矛盾源于重度AI用户与普通大众之间的认知差、收益差。数据显示,目前全球约12%的AI重度用户贡献了超过72%的AI产业年度新增营收,两类群体对AI的价值判断、风险认知的差距已经攀升至近五年来的最高点。

1 小时前
前端开发云服务商Vercel首席执行官Guillermo Rauch近日在HumanX大会上公开表态,称公司已经做好上市准备,且每日都在推进IPO相关筹备工作。受益于全球AI开发者对AI智能体部署工具需求爆发,Vercel近期迎来收入大幅增长,AI相关业务已成为拉动公司业绩增长的核心动力,也是其冲击公开市场的核心筹码。

4 小时前
斯坦福大学发布的《2026 AI指数报告》显示,当前全球AI技术迭代速度持续飙升,产业、监管与社会层面的适配进度远远跟不上技术发展节奏。本文由资深科技记者米歇尔·金(Michelle Kim)梳理报告核心观察,当前行业对AI的判断呈现极端分裂,一边将其视作百年一遇的淘金风口,一边认为当前AI泡沫已经濒临破裂。

5 小时前
4月13日,据海外科技媒体报道,AI公司Anthropic推出的AI编程智能体Claude Code,目前已成为该公司最大的增长引擎,这款产品由被称为“Claude Code之父”的开发者鲍里斯·切尔尼(Boris Cherny)主导打造,最新数据显示,Claude Code的年化收入已在2025年12月突破10亿美元,这位本科辍学自学编程的主创,去年夏天曾险些永久离开Anthropic。

6 小时前
4月13日,美国企业费用管理平台Ramp发布最新企业AI市场报告显示,当前美国企业的商用AI工具采用率已经首次突破50%关口。AI创业公司Anthropic的企业客户份额3月从24.4%飙升至30.6%,单月增长6.3个百分点,与头部厂商OpenAI的35.2%份额仅差4.6个百分点。Ramp按当前增速推算,Anthropic有望在两个月内完成对OpenAI的反超。

6 小时前
2026年4月,全球头部通信厂商中兴通讯在2026中兴通讯中国生态合作伙伴大会上,推出企业级Co-Claw AI一体机、GoldenDB向量数据库、576×800G端口框式智算交换机等多款全栈AI核心产品,亮出“算网存智一体”的全栈AI基础设施与智能终端矩阵,据资深科技记者程茜报道,早在2025年初,中兴就启动“连接+算力”双轮驱动战略升级,如今依托通信积累切入赛道,瞄准万亿级AI市场空间。

6 小时前
2026年4月,OpenAI正式宣布敲定英国伦敦国王十字区的首个海外永久总部,该项目预计2027年正式投入使用,建成后可容纳544名员工。此前OpenAI因能源成本问题暂停英国“星际之门”数据中心项目,但仍坚持深耕欧洲市场,此次永久办公室落地,标志着其海外业务进入稳定扩张阶段,也将进一步巩固该区域的全球AI产业集聚地位。