斯坦福大学人机交互实验室近日发布专项研究结果,针对ChatGPT、Google Gemini、DeepSeek等12款主流生成式AI聊天机器人的测试显示,其在医疗、财务、个人职业选择等高风险决策场景的平均错误率达37%,专家明确提示普通用户不应将AI聊天机器人作为个人决策的唯一参考依据,需对其输出内容保持审慎验证态度。
打开AI聊天机器人询问“我应该裸辞创业吗”“这个皮疹要不要去医院”,已经成为不少年轻用户的日常习惯。随着生成式AI的普及,AI工具的使用边界正在被不断拓宽,但其输出内容的可靠性,却始终没有统一的评估标准。
第三方调研机构此前发布的数据显示,截至2024年第二季度,全球生成式AI月活用户规模已经突破23亿,其中超过61%的用户表示曾使用AI聊天机器人咨询过个人相关问题,覆盖情感、职业、健康、财务等多个领域。
而Perplexity、Microsoft Copilot等主打“AI搜索助手”的产品,更是将“解答个人问题”作为核心卖点之一,进一步降低了用户使用AI做决策的门槛。
斯坦福此次研究覆盖了当前市场占有率最高的12款主流大语言模型,测试题均来自普通用户真实提交的个人决策类问题,其中超过300道题涉及需要专业资质才能给出意见的高风险场景。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录