2026年3月26日,苹果公司联合威斯康星大学麦迪逊分校正式推出专注于密集图像描述的AI训练框架RubiCap。该框架采用创新强化学习机制,引入Qwen2.5担任“裁判”提供训练反馈,可精准捕捉图像细粒度内容,性能反杀参数规模为其10倍的同类型图像描述模型,有效解决了传统图像标注成本高、生成内容幻觉多的行业痛点。
你有没有过这样的经历?用AI工具描述一张日常照片,它只能给出“这是客厅”“有猫”这类笼统的概括,却没法说出“米色沙发靠背上趴着一只三花幼猫,旁边摊着半本打开的科幻小说”这类细节——这种细粒度的密集图像描述能力,一直是计算机视觉领域的核心难题,也是端侧AI落地的重要障碍。
过去很长一段时间,密集图像描述的落地一直受限于两个核心瓶颈:一是标注成本过高,单张图片的细粒度人工标注成本超过10元,要支撑模型训练需要的百万级数据量,仅标注成本就超过千万元,中小团队根本无力负担;二是现有方案效果失衡,千亿参数级云端大模型虽然能输出相对准确的描述,但延迟高、隐私风险大,而能在端侧运行的小参数模型,普遍存在幻觉率高、细粒度识别不准的问题,根本达不到可用标准。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
16 小时前
2026年5月,面向Mac设备的AI应用Osaurus正式推出,其核心特性为融合本地部署与云端调用两类AI模型能力,同时将用户的对话记忆、本地文件、关联工具数据全部保留在用户自有硬件内,兼顾大模型复杂任务处理能力与个人数据安全需求,为对隐私有高要求的Mac用户提供了新的AI生产力工具选择。

16 小时前
此前因智能语音助手Siri功能迭代滞后饱受诟病的苹果,近期被曝计划在App Store新增AI代理专属上架通道,允许第三方开发者基于ChatGPT、Google Gemini、DeepSeek等主流大模型开发的AI代理产品登陆全苹果生态,覆盖iOS、iPadOS及macOS设备,补齐其在生成式AI应用层的布局短板。

17 小时前
谷歌近期正式公布Googlebook适配计划,针对已过官方更新支持周期的存量Chromebook设备,推出专用轻量化操作系统,通过适配Gemini nano端侧大模型等AI能力,让旧设备可继续用于轻办公、学习场景,预计首批覆盖全球超1000万台设备,用户无需额外付费即可完成系统升级。

17 小时前
近期模块化笔记本品牌Framework宣布再度上调旗下可更换RAM、存储模块售价,本次调价受上游存储芯片产能紧张、端侧AI部署需求暴涨双重驱动。当前ChatGPT、Google Gemini、Apple Intelligence等大模型纷纷落地PC端,消费级设备对内存、存储的配置需求较三年前提升近2倍,存储产业链供需缺口持续扩大。

11 天前
近期全球AI赛道动作密集,OpenAI推进GPT-5研发、微软Copilot商业化覆盖超1亿用户、谷歌Gemini多模态能力迭代、苹果Apple Intelligence完成端侧部署适配,国产厂商DeepSeek、Perplexity等也在垂直场景跑出差异化优势,端侧大模型渗透率预计2025年将突破40%,行业已进入技术落地与场景渗透的关键期。

12 天前
近日,华硕正式推出面向专业创意群体的ProArt PZ14移动创意本,产品搭载高通第三代骁龙X2 Elite计算平台,配备14英寸144Hz高刷OLED专业触控屏,45TOPS端侧AI算力可原生运行Stable Diffusion、Adobe Firefly等主流AI创作工具,无需云端传输即可完成AI绘图、视频智能剪辑等操作,填补了高端ARM架构AI创意本的市场空白。

12 天前
近日,谷歌首次公开回应Android系统组件AICore占用用户设备存储空间的广泛争议,明确该组件是支撑Google Gemini、设备端大语言模型运行的核心载体,当前稳定版本单组件存储占用最高可达10GB,主要用于缓存边缘AI模型参数,可有效减少云端交互延迟、降低用户隐私数据上传风险。

13 天前
2026年5月腾讯正式开源紧凑型AI翻译模型Hy-MT1.5-1.8B-1.25bit,依托1.25比特量化技术实现体积从3.3GB到440MB的大幅压缩,支持33种语言、5种方言共1056个翻译方向,可在智能手机完全离线运行,累计斩获30项国际机器翻译大赛冠军,翻译质量比肩谷歌翻译等商用方案及百GB级大模型。