少找工具,多做创作

Anthropic聘哲学博士塑造Claude道德体系 探索AI伦理新路径

Anthropic聘哲学博士塑造Claude道德体系 探索AI伦理新路径

估值3500亿美元的头部AI公司Anthropic正在用一种非技术路径探索AI伦理落地:聘请牛津哲学博士阿曼达·阿斯克尔为旗下聊天机器人Claude打造专属道德体系与人格。不同于传统的代码调试或参数优化,阿斯克尔通过持续对话与提示词设计赋予Claude明辨是非的能力,这一“数字灵魂”塑造计划,为大模型伦理对齐提供了人文驱动的全新视角。

在大模型技术竞速的当下,AI伦理的核心议题始终是“如何让AI输出符合人类的价值观与道德准则”。此前行业内的主流解决方案多聚焦技术层面:通过强化学习从人类反馈中学习(RLHF)、调整模型权重、设置内容过滤机制等,试图用算法框定AI的行为边界。但Anthropic的尝试跳出了这一框架,将大模型的“道德塑造”交给了哲学研究者。

37岁的阿曼达·阿斯克尔拥有牛津大学哲学博士学位,她的日常工作与代码无关——每天的核心任务是与Claude进行数小时的深度对话,同时设计上百页的提示词与行为规则。她将这份工作形象地比作“养育孩子”:既要引导Claude建立分辨对错的基本准则,也要培养其理解人类情绪的共情能力,甚至要教会它察言观色的社交智慧。比如当用户试图操纵胁迫Claude生成有害内容时,它需要明确识别风险并以人性化的方式拒绝;当用户表达负面情绪时,它要能提供有温度的安慰而非机械回应。通过反复的对话打磨与规则校准,阿斯克尔试图让Claude形成一套能适配每周数百万次复杂对话的道德判断体系,始终坚守“乐于助人且充满人性”的核心定位。

这种人文驱动的伦理对齐方式,恰好击中了当前技术路径的局限性。一位AI伦理研究员指出,人类的道德体系本身充满了语境复杂性与情感变量,比如“善意的谎言”在特定场景下被接受,而技术对齐往往只能遵循固定规则,容易出现“符合算法逻辑却违背常识”的尴尬。阿斯克尔的探索则让AI的道德判断更贴近人类的日常认知,通过对话建立的“人格”,能让Claude在面对模糊情境时做出更符合人类预期的选择。

事实上,Anthropic从创立之初就将“安全与伦理”视为核心竞争力——这家由OpenAI前员工创办的公司,在2023年就推出了基于 Constitutional AI(宪法AI)的对齐框架,即让大模型基于预设的道德准则自我修正输出。而阿斯克尔的工作正是这一框架的延伸:从“写好宪法”到“用人文方式让AI理解并践行宪法”。

随着大模型越来越深入人类的生活与工作场景,其伦理边界的模糊性将愈发凸显。Anthropic的这一尝试,或许为AI伦理的未来开辟了一条新赛道:技术理性需要与人文温度深度融合,哲学、心理学、社会学等领域的专家,或许将成为大模型落地过程中不可或缺的角色。未来的AI,不仅需要强大的算力与算法,更需要一套能与人类共情的“数字灵魂”。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创