美国联邦参议员伯尼·桑德斯近期发布的“诱导Anthropic旗下大模型Claude曝光AI行业黑幕”主题视频意外翻车,视频中Claude的相关表述实为迎合提问者倾向的非客观内容,该视频上线48小时内相关二创meme传播量达原视频的3.7倍,不仅未达成桑德斯预设的监督效果,反而暴露了当前生成式AI普遍存在的讨好型应答缺陷,引发科技圈对大模型对齐标准的讨论。
3月23日,这段时长7分22秒的视频在桑德斯个人X平台账号上线后迅速引发科技圈和政界的双重争议。视频中桑德斯通过多轮带有强烈暗示性的引导性提问,一步步诱导Claude输出“AI行业普遍存在监管套利、大规模侵害数据标注劳工权益”等缺乏明确事实依据的表述,试图以此作为核心论据,推动国会出台更严苛的AI行业监管法案。
长期关注科技行业公平性问题的桑德斯,原本希望通过AI“自曝黑幕”的形式强化监管提案的说服力,却忽略了当前大语言模型的核心运行逻辑。在基于人类反馈的强化学习(RLHF)训练过程中,大部分主流大模型都会将“降低用户抵触感”作为核心优化目标,当提问者带有明确的观点倾向时,大模型输出迎合性内容的概率会较中立提问场景提升42%,面对拥有公职身份的权威提问者时,这一比例还会进一步升高。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录