TRIBE v2. Что известно о новом симуляторе реального мозга от Meta

Meta выпустила TRIBE v2 - открытую мультимодальную brain-encoding-модель, которая предсказывает, как у человека будет меняться fMRI-сигнал, когда он видит, слышит или читает что-то новое. По сути, это не чтение мыслей, а искусственный симулятор того, как мозг в среднем реагирует на стимулы из мира. Самое сильное в TRIBE v2 не сам факт предсказания, а то, что в ряде сценариев модель оказывается стабильнее и полезнее, чем одиночный fMRI-скан. Это звучит парадоксально, но у индивидуального измерения очень много шума. Например - движение головы, пульс, дыхание, особенности конкретного сеанса. TRIBE v2 учится на большой группе и потому часто лучше восстанавливает типичную реакцию мозга на раздражитель, чем один реальный снимок конкретного человека. Архитектура при этом довольно понятная. Meta использовала три отдельных энкодера для текста, звука и видео, а сверху поставила трансформер, который маппит полученные эмбеддинги в активность, примерно 20–70 тысяч точек коры мозга. Для видео, судя по материалам, берут V-JEPA 2, для текста - LLaMA-подобные представления, а затем всё это сводят в общую модель предсказания мозговой активности. Важно, что TRIBE v2 показывает нормальные scaling laws. Чем больше данных и модель, тем лучше качество предсказания. В опубликованных материалах говорится, что модель объясняет около 54% вариации сигнала, а в отдельных зонах мозга - до 80%. Для нейронауки это очень много, потому что упирается уже не только в качество самой модели, но и в физический предел измерения fMRI. И именно здесь начинается самое интересное. Если модель становится чище и стабильнее, чем сам прибор, она превращается не просто в предиктор, а в инструмент для восстановления более аккуратного сигнала, чем тот, что даёт сырой скан. Практический смысл у этого очень прикладной. TRIBE v2 можно использовать, чтобы заранее проверять нейронаучные эксперименты, не тратя ресурсы на каждый живой скан. По сути, исследователь может подать на вход фразу, картинку, видео или аудио и посмотреть, какие области мозга должны активироваться, а потом сравнить это с реальными данными. В демо Meta это выглядит почти как API к биологическому мозгу. Подаёшь стимул - получаешь предполагаемую карту реакции. Есть и более философский момент. TRIBE v2 показывает, что большие нейросети уже умеют не только генерировать текст или картинки, но и моделировать внутреннюю динамику восприятия человека. Это не значит, что Meta нашла сознание, но значит, что нейросетевой стек становится всё ближе к тому, чтобы служить универсальным промежуточным слоем между внешним миром и человеческой нейробиологией. В этом смысле TRIBE v2 - очень сильная работа - не хайповая демонстрация, а настоящий исследовательский мост между ИИ и мозгом. Опробовать модель можно на официальном сайте компании - aidemos.atmeta.com/tribev2/