Новая модель искусственного интеллекта продемонстрировала способность изучать язык подобно маленькому ребенку, соотнося слова с объектами и действиями на видео без предварительной разметки данных. Ученые в области нейронаук и искусственного интеллекта сделали прорыв в понимании того, как можно обучать машины языку. Они создали ИИ-модель, которая учится, просматривая видеоролики, что имитирует процесс освоения языка маленьким ребенком, который наблюдает за окружающим миром и слушает речь взрослых. В отличие от традиционных больших языковых моделей, которые обучаются на гигантских объемах размеченного текста, эта модель училась на основе аудиовизуальных данных. Она самостоятельно устанавливала связь между произносимыми словами (аудио) и объектами или действиями, которые видела на экране (видео). Например, услышав слово "яблоко" и увидев его на видео, модель формировала ассоциацию. Этот подход, известный как мультимодальное обучение, считается более близким к тому, как функционирует человеческий мозг. Результаты исследования не только открывают новые пути для создания более "разумных" ИИ-систем, но и предоставляют ученым мощный инструмент для моделирования и изучения процессов освоения языка у детей.