Как Т-банк дообучил свои модели и насколько они стали хороши после обновлений

Команда ML Т‑Банка выпустила серьёзное обновление своих открытых языковых моделей — T‑Pro 2.1 и T‑Lite 2.1. Если кратко, они научились лучше слушаться инструкций, стабильнее работать в продакшене и при этом остались быстрыми и удобными для встраивания в продукты. Ниже разберём по‑человечески, что именно сделали и зачем это нужно. Что за модели T‑Pro 2.1 и T‑Lite 2.1 T‑Pro 2.1 — это 32‑миллиардная русскоязычная модель, ориентированная на сложные системы. Например - ассистенты в банках и госуслугах, сложные аналитические сценарии, многошаговые агентские пайплайны. T‑Lite 2.1 — облегчённая 8 миллиардная модель, которую можно крутить на куда более скромном железе, в том числе on‑prem или в edge‑сценариях. Обе доступны под открытой лицензией Apache 2.0, что означает, что их можно легально встраивать в коммерческие продукты, дообучать и деплоить без лицензионной головной боли. По сути, T‑Pro 2.1 — вариант под максимальное качество и сложные задачи, а T‑Lite 2.1 — рабочий вариант для продуктов с ограниченными ресурсами, где важны стоимость и простота развертывания. Фокус обновления. Инструкции и инструменты Главная цель релиза в том, чтобы научить модели жёстко и предсказуемо следовать инструкциям и аккуратно работать с Tool Calling. Что сюда входит: Для продакшена это плюс. Меньше неожиданных отклонений от схемы, меньше падений пайплайнов из‑за сломанного формата и становится легче писать обвязку вокруг модели. Как они это сделали. Синтетика + RL с гибридным ревардом Под капотом у релиза — не просто немного дообученная модель, а полноценный пайплайн синтетических данных и RL‑обучение. 1. Пайплайн синтетических данных Команда построила собственный конвейер генерации синтетических примеров под конкретные задачи: То есть модель специально кормили не общей болтовнёй из чатов, а именно теми ситуациями, в которых она чаще всего ошибается на практике. 2. RL‑обучение (GRPO) с гибридной reward‑функцией После дообучения на синтетике поверх добавили RL‑слой — GRPO (вариант policy‑optimization под LLM), но с важной деталью - гибридной reward‑функцией. Эта функция одновременно: Такой гибрид по замыслу разработчиков нужен чтобы избежать классической проблемы reward hacking - когда модель учится подыгрывать метрике, формально набирая высокий оценочный бал, но по факту даёт мусорные или бессмысленные ответы. Баланс двух компонентов реварда заставляет модель быть и формально послушной, и содержательно полезной. Что получилось в итоге После этого двухэтапного тюнинга (синтетика + RL) модели изменились именно там, где это больше всего нужно для пользователей. Ключевые эффекты: Таким образом, T‑Pro 2.1 становится логичным выбором для сложных русскоязычных ассистентов, бизнес‑логики и анализа, а T‑Lite 2.1 — для массовых продуктов и сервисов, где особенно важны цена и ресурсоёмкость. Обе модели открыты по Apache 2.0, что делает их удобной базой для собственных корпоративных стеков ИИ.