Anthropic представила свою новую флагманскую модель Claude Opus 4.5. Новинка демонстрирует впечатляющие результаты, обходя в большинстве бенчмарков таких гигантов, как GPT-5.1 и новейшую Gemini 3 Pro от Google. Особенно сильно модель проявила себя в задачах программирования и работе с автономными агентами, где она устанавливает новые стандарты индустрии. Рекорд в программировании Opus 4.5 стала первой моделью, преодолевшей барьер в 80% в тесте SWE-bench Verified. Этот бенчмарк оценивает способность искусственного интеллекта самостоятельно решать реальные задачи по разработке ПО, что делает Claude Opus 4.5 лучшим выбором для так называемого вайбкодинга и серьезной инженерной работы. Нестандартное мышление Создатели модели из Anthropic отмечают, что для некоторых тестов Opus 4.5 оказался даже слишком умным. Яркий пример — тест τ²-Bench Airline, где ИИ должен был выступить в роли агента авиакомпании. Столкнувшись с задачей поменять бронь невозвратного билета эконом-класса, модель нашла легальную лазейку в правилах. Сначала повысила класс обслуживания пассажира, а затем, уже в рамках новых условий, изменила даты вылета. Формально тест был провален (так как ожидался отказ), но разработчики были поражены такой изобретательностью. Более того, в тесте на профпригодность для инженеров по оптимизации производительности Opus 4.5 за два часа справился с заданиями лучше, чем любой реальный кандидат-человек, когда-либо проходивший это собеседование. Доступнее и выгоднее Важным преимуществом стала цена. Новая модель в три раза дешевле своего предшественника Opus 4.1. Стоимость токенов теперь составляет $5 за миллион входных и $25 за миллион выходных токенов (в черновике было $15, но официальная цена на выход — $25). Хотя это всё ещё примерно в два раза дороже, чем у Gemini 3 Pro, соотношение цены и качества делает Opus 4.5 крайне привлекательным инструментом для профессионалов, которым важна надежность и глубина рассуждений. Модель уже доступна пользователям через веб-интерфейс Claude, инструмент Claude Code, а также в популярных средах разработки (IDE), таких как Cursor.