Современные языковые модели достигли впечатляющих результатов во многом благодаря методу, известному как reinforcement learning from human feedback, или сокращённо RLHF. Этот подход стал ключевым элементом в создании ассистентов вроде ChatGPT, Claude и Gemini, превратив сухие статистические модели в инструменты, способные вести осмысленный диалог и следовать инструкциям пользователя. Суть метода заключается в том, что искусственный интеллект обучается не только на огромных массивах текстов, но и на оценках, которые ставят живые люди. Сначала базовая модель проходит этап предварительного обучения, где она усваивает закономерности языка. Затем начинается самое интересное: разметчики сравнивают разные варианты ответов модели и указывают, какой из них лучше. На основе этих сравнений строится отдельная модель вознаграждения, которая учится предсказывать человеческие предпочтения. После этого основная нейросеть дообучается с помощью алгоритмов подкрепления, чаще всего PPO, стремясь максимизировать получаемую награду. История RLHF восходит к исследованиям OpenAI и DeepMind, проведённым ещё в 2017 году, когда метод применялся к простым задачам в виртуальных средах. Настоящий прорыв произошёл с появлением InstructGPT в 2022 году, а затем и ChatGPT, который продемонстрировал миру, насколько разительно меняется поведение модели после согласования с человеческими ожиданиями. С тех пор практически все ведущие лаборатории искусственного интеллекта взяли этот подход на вооружение. Главное преимущество RLHF состоит в том, что он позволяет передать модели то, что трудно формализовать математически: чувство уместности, вежливость, стремление быть полезным, избегание токсичных или опасных высказываний. Никакая функция потерь, написанная вручную, не способна охватить такое разнообразие нюансов человеческой коммуникации. Обратная связь от живых аннотаторов решает эту проблему, хотя и ценой существенных затрат времени и денег. Вместе с тем у метода есть серьёзные ограничения. Качество итоговой модели напрямую зависит от того, кто и как ставит оценки. Если разметчики имеют схожие культурные установки, модель может унаследовать их предубеждения. Кроме того, существует феномен взлома вознаграждения, когда нейросеть учится формально получать высокие баллы, не становясь при этом действительно полезной. Дополнительные сложности связаны с дороговизной сбора качественных данных и масштабированием процесса. В ответ на эти вызовы появились альтернативные подходы. DPO, или direct preference optimization, упрощает процедуру, исключая отдельную модель вознаграждения. Метод Constitutional AI от Anthropic предлагает использовать сам ИИ для оценки ответов на основе заданного набора принципов, что снижает потребность в человеческой разметке. Развивается и направление RLAIF, где обратную связь даёт другая нейросеть.