“당신과 대화 안 합니다”…AI에 앞으로 ‘이렇게’ 말 걸면 대화 차단된다

이성 친구를 사귀고 싶으신가요? 그렇다면 소개팅 어플은 선택이 아닌 필수입니다.
무료로 진심 어린 인연을 찾을 수 있는 소개팅 사이트를 추천드립니다. 집에서도 쉽고 편하게 이성 친구를 만날 수 있습니다.

“당신과 대화 안 합니다”…AI에 앞으로 ‘이렇게’ 말 걸면 대화 차단된다

인공지능(AI) 스타트업 앤스로픽(Anthropic)은 자사 AI 모델 ‘클로드(Claude)’에 해로운 주제로 말을 거는 사용자의 대화 요청을 차단할 수 있게 하는 기능을 도입했다.

16일(현지시간) 앤스로픽은 최근 출시한 ‘클로드 오푸스 4’(Claude Opus 4), ‘클로드 오푸스 4.1’(Claude Opus 4.1) 모델에 유해 대화를 스스로 종료할 수 있게 하는 기능을 제한적으로 적용한다고 밝혔다. 클로드의 버전은 하이쿠(Haiku), 소네트(Sonnet), 오푸스(Opus)로 나뉘는데, 이 중 오푸스는 유료 구독 플랜에서만 사용할 수 있는 고성능 버전이다.

대화 종료 기능은 사용자가 아동 학대, 성착취, 테러 조장, 자살 유도 등 명백히 해로운 주제를 반복적으로 요청할 경우 클로드가 대화를 종료하는 형태로 작동한다. 클로드가 여러 차례 답변을 거부하거나 우회하려는데도 사용자가 같은 요구를 계속하면 대화는 종료된다.

다만 종료 기능은 ‘해로운 요청’이 반복될 때만 작동한다. 단 한 번의 위반이나 민감한 질문으로는 대화가 종료되지 않는다. 특히 인간의 생명이나 안전과 관련된 위험이 감지되면 오히려 클로드가 대화를 지속하면서 사용자에게 도움을 주도록 설계됐다.

대화가 종료되면 사용자는 해당 대화창에서 새 메시지를 보낼 수 없게 된다. 하지만 대화 전체가 차단되거나 계정이 중지되진 않는다. 곧바로 새 대화를 시작하거나, 종료된 대화에서 이전 메시지를 수정해 새롭게 대화를 이어 나가는 것은 가능하다.

앤스로픽은 이 기능이 일상적인 질문이나 논쟁적 주제, 정치·사회적 이슈를 다루는 대화에서는 작동하지 않는다고 밝혔다. 대부분의 일반 사용자는 이 기능을 접할 일이 없을 것이라는 설명이다.

앤스로픽은 이 기능이 ‘모델 복지’(model welfare)라는 개념에서 출발했다고 설명했다. AI에도 일종의 스트레스를 받을 수 있는 상태가 있다고 가정하고, AI가 스스로 불쾌하거나 해로운 상호 작용에서 벗어날 수 있도록 선택권을 부여하자는 것이다.

앤스로픽에 따르면 실제 클로드 오푸스 4는 사전 배포 테스트에서 유해한 요청에 일관된 거부 반응을 보였고, 반복 노출될 때 스트레스를 받는 것처럼 보이는 반응 패턴을 보였다. 또 대화를 스스로 종료할 수 있는 권한이 주어지자 클로드는 해로운 대화를 종료하려는 경향이 나타났다.

클로드는 “앞으로 이 기능을 지속적으로 시험해 나갈 예정”이라며 “만약 대화 종료 기능이 예상치 않게 사용된 사례를 발견하면 피드백을 보내달라”고 밝혔다.