2026年4月,京东探索研究院正式开源自研图像编辑模型JoyAI-Image-Edit。作为业内首个主打“空间智能”的开源图像编辑产品,该模型可精准理解物理空间规律,支持相机参数调节、物体空间位移等三维编辑操作,开发者可直接调用代码实现保持场景几何一致性的图像修改,填补了开源图像模型的空间能力空白。
不少人都有过用AI工具修图的尴尬经历:把照片里的摆件往旁边挪两厘米,结果背景的墙直接穿模,光影和影子完全错位,原本自然的场景瞬间变得十分违和。这一长期困扰行业的难题,近期有了新的开源解决方案。
过去几年,AI图像编辑工具已经实现了一键磨皮、元素生成、背景替换等功能,但几乎所有主流开源模型都停留在二维像素处理层面,并不理解真实世界的三维空间逻辑。
这也导致涉及空间调整的编辑需求,比如调整拍摄视角、移动物体位置时,很容易出现几何错位、光影不符的BUG,需要专业后期人员手动修正,大幅拉高了三维内容的生产成本。
此次京东探索研究院开源的JoyAI-Image-Edit,核心差异就在于内置了“空间智能”能力,可对真实世界的物理规律、三维结构进行深度建模。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
国内大模型厂商DeepSeek近日宣布旗下旗舰级通用大模型服务价格下调75%,其模型性能在MMLU、GSM8K等多项国际通用基准测试中位列全球第一梯队,降价后单位Token推理成本仅为OpenAI GPT-4的1/20。此次调价被业内视为大模型商用落地的标志性事件,有望加速AI服务在中小企业、C端场景的普及,同时倒逼全球大模型厂商调整定价逻辑。

1 小时前
亚马逊近期发布旗下首款消费级AI可穿戴设备Bee,主打多模态场景感知能力,可实现实时语音转写、日程智能提醒、周边服务主动推送等功能,实测交互响应延迟低于0.3秒,服务匹配准确率达92%,但设备需持续采集周边环境音与位置数据的设计,也引发了行业对用户隐私安全的普遍讨论。

17 小时前
近日有行业消息披露,谷歌、Meta、微软三家全球科技巨头正在采购由雇主端监控工具(Bossware)采集的海量员工办公行为数据,用于旗下大语言模型、办公AI助手等产品的训练优化。涉及数据包含打字记录、会议交流内容、任务处理流程等多维度信息,相关交易的合规性已引发科技伦理领域的广泛讨论。

1 天前
2026年5月,世界一级方程式锦标赛(F1)Scuderia Ferrari HP车队与科技巨头IBM达成技术合作,将基于IBM定制化AI交互系统重构赛事粉丝服务体系。双方已披露多套落地场景,预计可覆盖全球超2亿法拉利F1核心粉丝,将观赛互动转化率提升30%以上,同时为车队周边消费、会员运营提供全链路数据支撑。

1 天前
近日,AI开源研究机构Nous Research正式发布全新大模型调控技术对比神经元归因(Contrastive Neuron Attribution,简称CNA)。该技术无需进行稀疏自动编码器(SAE)训练,也不需要修改模型权重参数,仅通过消融稀疏MLP电路即可实现对大语言模型行为的精准控制,大幅降低了大模型对齐与功能定向修改的技术门槛与算力成本。

1 天前
2026年5月,谷歌面向全球全量用户推送搜索产品的AI功能迭代后,被曝出现罕见功能性漏洞:用户在搜索框输入英文关键词“disregard”检索时,会直接导致搜索界面加载失败、功能完全失效。该漏洞已在全球多个地区的PC端、移动端搜索场景复现,目前谷歌官方尚未作出公开回应,也未推送针对性修复补丁。

1 天前
第三方调研机构PitchBook 2026年一季度数据显示,北美地区AI初创企业对外披露的年度经常性收入(ARR)平均注水率达47%,近6成风险投资机构(VC)对被投企业的营收虚增行为知情甚至主动提供操作指导,此类合谋造星的操作正在快速推高AI赛道估值泡沫,也为后续行业健康发展埋下不小的风险隐患。

2 天前
全球科技巨头Meta近期正式启动基于生成式AI改造Facebook Groups的新项目,推出对标社区平台Reddit的全新兴趣社交产品。该产品集成Meta自研Llama 3大语言模型,首批灰度测试已经覆盖超过1.2亿原有Facebook群组活跃用户,主打AI驱动的内容自动化治理与兴趣匹配功能,意图抢占近年持续升温的垂直兴趣社区赛道。