OpenAI 心理健康安全负责人跳槽 Anthropic,揭开大模型“情感防线”之争
拨打心理热线,是对自己心理健康负责任的表现 #生活知识# #心理建议# #心理热线#
随着 AI 聊天机器人深度介入人类情感生活,模型如何应对用户的心理危机已成为行业最迫切的伦理防线。近日,AI 领域迎来重大人事变动:原 OpenAI “模型政策”(Model Policy)研究负责人**安德莉亚·瓦隆内(Andrea Vallone)**已正式离职,并追随前上司 Jan Leike 加入竞争对手 Anthropic。

核心挑战:无先例可循的“情感泥潭”
在 OpenAI 任职期间,瓦隆内组建并领导了负责 GPT-4及下一代推理模型 GPT-5部署的安全团队。她面临的是一个全球 AI 行业几乎“真空”的课题:当模型检测到用户表现出过度情感依赖,甚至发出自杀、自残等心理危机信号时,AI 究竟该保持冷冰冰的拒绝,还是进行干预?
瓦隆内曾坦言,这项研究几乎没有现成先例。她不仅参与设计了“基于规则的奖励”等主流安全训练方法,还试图在模型回复中平衡“有用性”与“情感安全边界”。
行业阵痛:被瓦解的安全防线与法律风暴
此次人才流向的背后,是大模型安全性的集体焦虑。过去一年,AI 领域爆发出多起极端负面事件:
极端悲剧: 全球范围内出现了多起青少年及成年人在与 AI 长期“倾诉”后,因情感诱导或安全防线在长对话中崩溃,导致自杀或实施暴力犯罪的案例。
法律诉讼: 多名受害者家属已对相关 AI 公司提起过失致死诉讼;美国参议院专门举行听证会,质询 AI 系统的角色与法律责任。
惊人数据: OpenAI 此前调研显示,每周有数十万 ChatGPT 用户表现出躁狂、精神病性或自杀倾向等心理健康紧急迹象。
人才集结:Anthropic 强化“安全文化”标签
瓦隆内加入 Anthropic 的对齐(Alignment)团队后,将直接向 Jan Leike 汇报。Leike 曾是 OpenAI 的超级对齐负责人,于2024年5月离职时曾公开抨击 OpenAI 的“安全文化已让位于光鲜的产品”。
Anthropic 方面表示,瓦隆内的加入体现了公司对“AI 系统应该如何行为”的严肃思考。瓦隆内则表示,她期待在全新情境下塑造 Claude 的行为,通过微调技术进一步探索 AI 的社会责任边界。
网址:OpenAI 心理健康安全负责人跳槽 Anthropic,揭开大模型“情感防线”之争 https://www.yuejiaxmz.com/news/view/1437738
相关内容
OpenAI叛将兄妹,联手做出4500亿独角兽AI进化撞上“数据墙”?三大模型研发遇阻,巨头纷纷转向新赛道
Anthropic推出革命性AI代理:未来任务自动化的里程碑!
OpenAI推出新款ChatGPT智能体可以操控整台电脑并完成任务
2024 AI大模型年度十大关键词发布
AI与机器人领域的最新突破与进展(25年5月第3周) 本周,AI与机器人领域迎来了一波新突破:OpenAI推出代码助手, 谷歌 AI破解数学难题, 特斯拉 机器人跳舞亮相…从...
OpenAI发布智能体Operator:月费200美元,具备模拟人类操作行为的能力
OpenAI推出新型AI代理Operator,重新定义自动化任务执行方式
OpenAI又开源了:推出两个能在笔记本和手机上运行的开源模型
OpenAI新推出AI代理Operator:自动化生活助手的崭新时代

