Андрей Карпатый раскритиковал методы RL обучения

Андрей Карпатый, бывший ведущий исследователь OpenAI и инженер по ИИ в Tesla, поделился своим мнением о будущем обучения нейросетей и раскритиковал популярный метод reinforcement learning (RL), который сегодня применяют почти все ведущие компании при разработке LLM (large language models). 🧐 Почему Reinforcement Learning не идеален По словам Карпатого, использование RL-reward-функций (систем наград) в обучении ИИ кажется «подозрительным» и уже не даёт значительного прогресса. Он объясняет, что: Иными словами, обучение LLM через RLHF (reinforcement learning with human feedback) достигло своего потолка. Чтобы продвинуть искусственный интеллект на новый уровень, нужны новые методы обучения ИИ. ⚖️ RL всё ещё полезен Карпатый не предлагает выкинуть RL на свалку истории. Он признаёт, что этот подход лучше, чем классическое контролируемое обучение (supervised fine-tuning), и будет ещё долго использоваться для тонкой настройки поведения моделей. Особенно это важно, чтобы ИИ не генерировал токсичный или опасный контент. 🚀 Подходы к обучению LLM будущего Настоящий прорыв, по мнению эксперта, произойдёт, когда появятся более гибкие и естественные подходы к обучению нейросетей. Один из них — system prompt learning. Этот метод не изменяет веса модели, а обучает её через контексты и токены — по сути, «обучает её думать во сне». Карпатый сравнивает это с работой человеческого мозга ночью. Информация усваивается, связи укрепляются, но никакого «жёсткого переписывания» не происходит. Сегодня почти весь рынок ИИ полагается на RL. Если этот метод действительно ограничивает развитие моделей, то будущее искусственного интеллекта зависит от того, насколько быстро исследователи найдут альтернативы. Новые подходы к обучению LLM могут сделать модели более умными, гибкими и приближенными к человеческому мышлению. А возможно, именно такой сдвиг станет первым шагом к настоящему AGI — искусственному интеллекту, сравнимому с человеком.