Теперь одна модель одинаково хорошо справляется с задачами компьютерного зрения: детекция, сегментация, depth estimation, dense prediction — и на всех фронтах она уверенно обгоняет и предыдущие foundation-модели, и узкие «точечные» решения (включая CLIP-based, SigLIP 2 и Perception Encoder). Для индустрии это реально переломный момент. 🔥 Фишка в том, что DINOv3 обучалась без единой размеченной картинки — только на «сырых» пикселях. DINO = DIstillation with NO labels. В основе — Vision Transformer, которому скормливают более 2 млрд изображений. Учебный процесс строится по схеме «студент–учитель»: Таким образом сеть вычленяет устойчивые признаки: понимает, что кошка на разных обрезках фото — всё ещё та же кошка, а не «новые объекты». ⚡ Как применять: В итоге получаем: один «мозг» → много задач → минимум затрат. 🧠⚡