2026年5月,有技术团队利用AI语音复原技术,通过美国国家运输安全委员会(NTSB)公开的空难驾驶舱录音频谱图像,成功还原了已故遇难飞行员的完整语音内容。该事件引发家属不满与公众隐私争议,迫使NTSB临时关闭其公开档案查询系统,后续将出台针对公开事故数据的AI识别防护规则。
过去30年间,美国国家运输安全委员会(NTSB)在公开空难事故调查档案时,始终采用“发布频谱图、隐藏原始音频”的处理规则,既满足了专业调查人员的信息查阅需求,也保护了遇难飞行员的隐私,这套规则此前从未被突破。
此次事件中,技术团队使用的多模态频谱转语音生成模型,仅通过公开的静态频谱图像,就完成了原始音频的高保真还原:生成音频与原录音的相似度超过94%,不仅完整还原了飞行员的对话内容,连带方言口音、情绪波动甚至驾驶舱内的背景警报声都被精准复原。据了解,这类频谱转语音模型原本的应用场景是修复博物馆馆藏的老旧破损录音,此前从未被用于公共敏感数据的复原。
而在AI技术成熟之前,频谱图仅能供具备专业声学知识的调查人员读取,普通人根本无法将其转化为可收听的音频,这种“专业门槛”本质上是过去公共数据隐私保护的核心屏障,却在大模型的多模态解析能力面前彻底失效。
事件曝光后,多名遇难飞行员家属公开发声,认为NTSB的信息公开规则存在重大漏洞,“我们从未想过亲人在事故最后阶段的语音会被随意复原、传播,这对家属造成了二次伤害”。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
11 小时前
2026年5月22日,字节跳动AI研究团队正式对外开源原生统一多模态大模型Lance 3B,该产品仅搭载30亿激活参数,首次在轻量化级别的大模型体系中打破了传统VLM理解模型与DiT类扩散生成模型的技术边界,采用完全商用友好的Apache2.0开源协议开放全部权重,有望重塑当前多模态大模型的研发落地逻辑。

1 天前
北京时间2026年5月19日,谷歌在年度I/O开发者大会上正式官宣新一代普惠级AI设计工具的全栈布局,该产品面向零专业基础用户打造,预计覆盖教师、个体创作者、中小微企业主等超12亿泛创意人群,将直接改写AI设计赛道当前垂直厂商主导的竞争格局,标志着生成式AI落地场景的下一个核心战役正式打响。

1 天前
北京时间2026年5月19日,谷歌正式推出Gemini家族最新旗舰多模态模型Gemini Omni,该模型首次实现文本、音频、图像、视频四类信息的并行统一理解处理,跨模态交互流畅度较前代Gemini 2 Pro提升超60%,有望打破当前多模态AI的场景适配瓶颈,为消费级产品和行业解决方案提供全新技术底座。

4 天前
OpenAI旗下ChatGPT近期上线新功能:用户绑定个人银行账户后,可基于消费数据获取个性化理财建议。这一功能是通用AI向垂直金融场景延伸的重要尝试,却迅速引发隐私争议——涉及敏感财务数据的授权,让不少用户观望。目前该功能仅对部分付费Plus用户开放,合作银行范围有限,其便捷性与数据安全的平衡成为行业讨论焦点。

7 天前
近日谷歌旗下多模态大语言模型Google Gemini上线全新手写笔记处理功能,可准确识别不同字迹的零散手写笔记,仅需数秒即可梳理内容逻辑、补充拓展关联知识点,自动生成结构完整的定制化学习指南。该功能上线后迅速引发学生群体、教育科技领域广泛关注,被视为多模态大模型落地C端实用场景的代表性进展。

22 天前
2026年4月30日,大模型厂商DeepSeek在推出新一代基座模型DeepSeek-V4仅5天后,正式开启多模态识图功能灰度测试,移动端与网页端同步上线功能入口。实测显示,该模型在视觉还原、文物逻辑推理、图片文字提取等场景表现优异,仅在抗干扰图像识别、复杂图形推理等场景仍存在优化空间。

23 天前
2026年4月29日,大模型厂商DeepSeek宣布启动全新“识图模式”灰度测试,该功能与现有“快速模式”“专家模式”并列,区别于普通OCR文字识别,可实现深度图像分析与描述,参与灰度测试的用户反馈其响应速度极快,目前功能仍处于完善迭代阶段,将为用户带来更高效的图像信息处理智能化体验。

23 天前
2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。