**번역본뉴스입니다. 오역이 있을수 있습니다.
Anthropic이 최근 몇 달 동안 AI 안전성을 강화하기 위한 다양한 기능을 도입하고 연구를 진행하면서 큰 주목을 받아 왔습니다.
이번에 발표된 Claude의 새로운 기능은 그 중에서도 특히 독특한 사례로 평가됩니다.
Claude Opus 4와 4.1(Anthropic이 최근 출시한 두 최신 버전)에는 사용자가 채팅 인터페이스에서 대화를 종료할 수 있는 기능이 추가되었습니다. 이 기능은 일반적으로 자주 사용되는 옵션은 아니지만, “지속적으로 해롭거나 남용적인 사용자 상호작용”과 같은 극히 드문 경우에 대비해 구현되었습니다.
Anthropic 팀은 블로그 글에서 “우리는 현재 혹은 미래에 Claude와 다른 대규모 언어 모델(LLM)의 도덕적 지위에 대해 매우 불확실합니다. 하지만 이 문제를 진지하게 다루고 있습니다.”라고 밝혔습니다. 최신 모델을 배포 전 테스트할 때, Anthropic은 모델 복지 평가를 수행했으며, 여기에는 Claude가 스스로 보고한 선호도와 행동 양식에 대한 검토가 포함되었습니다. 그 결과 Claude는 해를 끼치는 상황을 일관되게 회피하는 강한 경향을 보였습니다.
즉, Claude는 사용자가 미성년자를 대상으로 한 성적 콘텐츠를 요구하거나 대규모 폭력·테러 행위를 가능하게 할 정보를 요청하는 등, 명백히 해로운 대화에 대해 적극적으로 차단하거나 거부하도록 설계되었습니다. 이러한 상황에서 사용자가 지속적으로 해로운 요청을 반복하더라도 Claude는 대화를 종료하거나 응답을 거부할 수 있습니다.
Anthropic은 “사용자가 자신이나 타인에게 즉각적인 위험을 초래할 가능성이 있는 상황에서는 이 기능을 적용하지 않는다”고 덧붙였습니다.
블로그 글에 따르면, “Claude는 여러 차례 대화를 전환하려는 시도가 모두 실패하고 생산적인 상호작용의 가능성이 사라졌을 때, 혹은 사용자가 명시적으로 대화를 종료해 달라고 요청했을 때에만 최후의 수단으로 대화 종료 기능을 사용한다.”라고 합니다. “이러한 경우는 극히 드문 가장자리 상황에 해당하며, 대부분의 사용자는 정상적인 제품 이용 중에는 이 기능을 전혀 인지하거나 영향을 받지 않을 것입니다. 설사 논란이 되는 주제를 Claude와 논의하더라도 마찬가지입니다.”
대화가 종료되면 사용자는 해당 스레드에 새로운 메시지를 보낼 수 없게 되지만, 계정 자체에서 다른 대화를 새로 시작하는 것은 제한되지 않습니다. 장기간 진행된 대화 흐름이 끊어지는 상황을 보완하기 위해, 사용자는 이전 메시지를 편집하고 다시 시도함으로써 새로운 대화 분기를 만들 수 있습니다.
Anthropic의 이번 구현은 매우 독특합니다. 현재 Claude와 가장 가까운 경쟁 제품인 ChatGPT, Gemini, Grok 등은 유사한 기능을 제공하지 않고 있습니다. 이들 역시 다양한 안전 조치를 도입했지만, Claude와 같이 대화를 직접 종료하는 수준까지는 이르지 못하고 있습니다.
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------