SWE-BENCH PRO новый бенчмарк от Scale AI показал пределы ИИ в программировании

Компания Scale AI выпустила новый бенчмарк SWE-BENCH PRO — инструмент, который проверяет, насколько искусственный интеллект готов к реальной работе программиста. 🤖 Что проверяли Раньше ИИ тестировали на простых задачах - дописать функцию или исправить мелкую ошибку. В таких тестах модели легко набирали 70% и выше. Но реальная разработка — это не пара строк кода, а большие проекты, где нужно одновременно править десятки файлов. Именно такие условия и смоделировал SWE-BENCH PRO. В тест вошли 1865 задач из популярных репозиториев. Чтобы решить их, ИИ приходилось менять в среднем 107 строк кода сразу в 4 разных файлах. Иногда — сотни строк. Это уже похоже на реальную жизнь программиста. 📊 Результаты И вот здесь случилось разочарование: То есть в условиях, максимально приближенных к рабочим, даже самые топовые ИИ-программисты сыпятся как новички ⚡ Почему это важно На демках модели выглядят почти как магия. Они пишут код, исправляют баги, помогают на собеседованиях. Но в реальности они пока справляются только с самыми простыми задачами. SWE-BENCH PRO показывает, что: 🧭 Куда все движется Этот бенчмарк стал холодным душем для индустрии. Он честно показывает: ИИ пока не может заменить живых инженеров, но может быть полезен как ассистент. Scale AI обещает обновлять тест, чтобы отслеживать прогресс, а разработчики моделей — подтягивать слабые места. Искусственный интеллект умеет писать код, но до уровня настоящих программистов ему еще очень далеко. SWE-BENCH PRO — первый тест, который показал это в полную силу.