OpenAI раскрыла механику работы Codex CLI. Краткие советы, как не слить свой бюджет на инференсы

OpenAI опубликовала технический разбор Codex CLI - локального агентного инструмента для работы с кодом. Вопреки вранью, который часто звучит из уст OpenAI это оказался поистине честный рассказ о том, как построить агента, который не сожрет весь бюджет на API и не сольет приватные данные третьим лицам. Материал полезен всем, кто разрабатывает собственных агентов или оптимизирует расходы на инференсы. Разберем ключевые механики. Как работает agent loop В основе лежит классический цикл: Звучит просто. Но дьявол в деталях. Жесткий лимит на инструкции Все инструкции из файлов AGENTS.md и корневых директорий агрегируются в один JSON. Его размер не должен превышать 32 килобайта. Это ограничивает количество проектных инструкций. Если у тебя огромная кодовая база с детальными гайдами, придется выбирать, что включить в промпт. Не все инструкции попадут в контекст одновременно. Главная проблема - стоимость контекста История диалога растет на каждом шаге. Теоретически это должно давать квадратичный рост затрат. Чем больше контекста, тем дороже инференс. А если контекста еще больше, то стоит это еще дороже. Но OpenAI решила задачу через кэширование промптов. Пока префикс запроса не меняется, инференс остается линейным по стоимости. Но есть нюанс - кэш крайне чувствителен. Изменение порядка инструментов или мелкая правка конфигурации полностью сбивает кэш. А со сбитым кэшем затраты резко растут. Практический совет. Если ты разрабатываешь агента, держи промпт-префикс стабильным. Каждое изменение в инструкциях = сброс кэша = рост расходов. Stateless архитектура и Zero Data Retention Codex CLI полностью перешел на stateless модель. Параметр previous_response_id убрали специально. Это поддерживает режимы Zero Data Retention в котором провайдер не хранит состояние диалога. Даже цепочки рассуждений (chain-of-thought) передаются в зашифрованном виде. Ключ остается на сервере, а данные у клиента. Долговременного хранения нет. Почему это важно. Если ты работаешь с корпоративным кодом или чувствительными данными, stateless-режим гарантирует, что твоя история не осядет на серверах OpenAI. Механизм компакции контекста Когда контекстное окно заполняется, включается механизм компакции. Модель не просто удаляет старые сообщения. Она сжимает их в специальный компактный блок. Блок занимает минимум места, но сохраняет смысл предыдущего диалога. Процесс запускается автоматически при достижении лимита auto_compact_limit. Ручная команда не требуется. Практический вывод. Агент может работать в бесконечном диалоге, не упираясь в лимит токенов. Старые сообщения не теряются, а компрессируются. Флаг oss. Работа с локальными моделями OpenAI напомнила про флаг oss. С его помощью Codex CLI работает с локальными моделями. Поддерживаются Ollama и LM Studio. Инструмент не привязан только к серверам OpenAI. Зачем это нужно: Для разработчиков, которые не хотят зависеть от внешних сервисов, это критичная опция. Что дальше OpenAI обещает больше деталей в следующих публикациях. Будут разобраны такие темы, как: архитектура CLI, реализация инструментов и модель песочницы Codex. Но уже сейчас ясно, что компания делится решениями, которые могут применить другие разработчики агентов. Кэширование, stateless архитектура, компакция - всё для снижения затрат и повышения приватности. Итог Codex CLI это не просто еще один AI-инструмент. Это референсная реализация того, как должен работать агент. Дешево, приватно, эффективно. Если ты строишь своего агента, изучи эти механики. Они сэкономят тебе тысячи долларов на API и уберегут тебя от утечек данных.