近日,沃顿商学院教授公开发布马里兰大学计算机团队联合Google DeepMind的最新研究成果,双方针对Claude、GPT、DeepSeek等5款主流大模型展开测试,通过名为StoryScope的自动化分析管道,基于情节、主体、时间结构等叙事特征识别AI生成内容,准确率高达93.2%。研究同时揭示,AI与人类故事创作底层逻辑存在本质差异,即使用户频繁调整提示词也难以改变该特征。

最近半年,社交平台上“调教大模型写出人类感文案”的教程累计收获超千万次浏览,不少内容创作者为了规避AI检测,反复调整提示词、要求大模型模仿特定文风,甚至手动修改近三成内容才能放心发布。但这份5月底公开的新研究结论,或许会直接推翻多数人的努力方向。
为了明确AI与人类写作的核心差异,研究团队设计了一场规模庞大的对比实验:累计收集上万个不同类型的写作提示,同步招募人类创作者、调用Claude、DeepSeek、Gemini、GPT、Kimi五款主流大模型,最终生成了包含六万多篇故事的测试样本库。
实验结果显示,无论用户输入什么样的提示词要求,大模型生成的内容始终被困在一个狭窄的默认叙事框架内,暴露出极其稳定的“叙事指纹”。即使用户要求大模型“模仿某位作家的文风”“打乱叙事顺序”,其底层的情节排布、人物动机逻辑、时间线结构等特征也不会发生本质改变,靠调整提示词完全无法抹去这类特征。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录