Каждый, кто хоть раз запускал обучение нейросети, знает, что где-то на сотом батче она может внезапно сойти с ума. Градиенты начинают расти без контроля, веса улетают в бесконечность, а модель теряет всякую адекватность. До сих пор это лечили костылями - gradient clipping, weight decay, нормализация слоёв. Но команда стартапа Thinking Machines, основанного Мирой Мурати, решила подойти радикально иначе. Не подправлять симптомы, а изменять саму геометрию обучения. 🌀 Математическая магия. Что значит жить на многообразии Идея звучит абстрактно, но на самом деле интуитивна. Вместо того чтобы разрешать весам изменяться как угодно, исследователи заставляют их подчиняться строгим законам. Представьте, что у вас есть матрица весов. Обычно она может растягивать сигнал бесконечно. Но если мы заставим её быть ортонормированной (строки и столбцы под углом 90°, длина = 1), то сигнал почти не будет раздуваться или исчезать. Вместо хаоса — чёткие правила. Вместо случайных шагов — движение по аккуратно выложенной дорожке. 🔧 Как это работает на практике Да, это сложнее, чем привычный AdamW. Но зато устойчивее и красивее с точки зрения математики. 🧪 Эксперименты и первые результаты На тестах с CIFAR-10 новый метод уверенно обошёл AdamW и показал стабильность, которой раньше не хватало. Градиенты не взрывались, обучение шло плавно. Но пока это лишь демо-версия идеи. Еще остается множество открытых вопросов. Например: 🌍 Почему это важно Исследование Thinking Machines не даёт готового решения, но предлагает новый язык для разговора о нейросетях. Вместо латания дыр разработчики ищут фундаментальный способ сделать обучение более надёжным. И если их подход приживётся, это может стать тем самым поворотным моментом, когда математика напрямую перепишет архитектуру будущих ИИ.