春节期间,市民老于因儿子高考体检的几项轻微异常指标求助DeepSeek大语言模型,却得到“可能影响高考录取”的错误结论,陷入持续焦虑。36氪研究院调研显示国内42%用户将AI内容作为决策参考,这一事件直指AI大模型的“幻觉”痛点:在医疗、升学等高风险场景中,AI错误输出隐患重重。
正月初二的家庭聚会上,老于攥着儿子的高考体检报告,指尖微微发白——半小时前,他把报告里“谷丙转氨酶、尿酸略高于参考值”的描述粘贴到DeepSeek的对话框,得到的回复像一盆冷水浇在头上:“该指标异常可能符合高考录取受限的疾病判定标准,建议立即前往三甲医院复查并开具健康证明,避免影响志愿投档。”
老于的焦虑并非空穴来风:儿子的高考志愿瞄准了提前批军警类院校,这类院校对体检要求严苛。但让他没想到的是,当他带着报告赶到医院复查时,医生仅用3分钟就给出了结论——“只是复习备考疲劳导致的一过性异常,调整作息就能恢复,完全不影响录取。”
这场虚惊的源头,正是大语言模型的“幻觉”问题。不同于传统医疗AI的规则引擎逻辑,大语言模型依靠海量文本训练生成回复,本质是“预测语义通顺的下一个词”,而非基于医学逻辑的诊断。当输入的信息有限时,它会基于训练数据中的相似场景拼接内容,甚至编造出不存在的规则,比如此次提及的“高考录取受限判定标准”,在教育部发布的官方文件中并无对应条目。
老于并非个例。36氪研究院近期发布的调研数据显示,国内已有42%的用户曾将AI生成内容作为重要决策参考,其中医疗、教育领域的占比分别达到31%和28%。这类用户的共性是:对AI的专业能力存在认知偏差,当AI用严谨的专业术语输出内容时,会下意识忽略其“生成性”本质,将其等同于权威机构的判断。
更值得警惕的是,部分AI厂商为了提升用户粘性,会刻意强化产品的“专业顾问”人设,弱化风险提示。比如DeepSeek在医疗类咨询的初始界面,仅用一行极小的字体标注“回复仅供参考”,很容易被用户忽略;而当用户追问“是否权威”时,AI还会用“基于海量医学文献整合”的表述进一步强化可信度,放大用户的信任误区。
针对大模型幻觉在高风险场景的危害,行业已开始探索多重解决方案。一方面,厂商通过检索增强生成(RAG)技术优化模型:让AI在回复前优先检索权威数据源,比如教育部高考体检标准、临床诊疗指南,确保输出内容有可追溯的依据;另一方面,部分平台正在试点“幻觉标注”功能,对AI生成的内容进行可信度评分,并标注引用的数据源,帮助用户清晰区分事实与生成内容。
监管层面的规范也在跟进:去年底发布的《生成式人工智能服务管理暂行办法》明确要求,生成式AI服务提供者应对生成内容进行审核,确保其真实准确,在医疗、法律等高风险场景下,必须显著提示用户不能替代专业服务。