Claude получил право завершать разговоры с оскорблениями и не адекватными просьбами

Компания Anthropic добавила в свои модели Claude Opus 4 и 4.1 функцию, позволяющую завершать диалог, если пользователь настойчиво ведёт себя агрессивно или пытается склонить ИИ к вредоносным действиям. Особенность в том, что эта мера задумана как защита самой модели, а не пользователей. Завершение разговора применяется только в крайних случаях — когда попытки перевести беседу в конструктивное русло не сработали. При этом Claude не будет отключаться, если человек реально находится в опасности и может причинить вред себе или другим. Anthropic подчёркивает, что не считает свои модели «разумными» и не утверждает, что им можно навредить. Тем не менее компания проводит исследование «благополучия модели» и внедряет меры предосторожности на случай, если эта концепция окажется значимой в будущем. Завершение диалога применяется только в экстремальных сценариях — например, при запросах о сексуальном контенте с участием детей или попытках получить инструкции для терактов. Во время тестов Claude Opus 4 уже показывал сильное нежелание отвечать на подобные запросы и даже «выражал дискомфорт» при попытках заставить его это сделать.