В России придумали, как лучше ловить галлюцинации у больших языковых ИИ моделей

Исследователи из Сбера представили новый метод, который позволяет значительно точнее определять, когда LLM «фантазирует». По их данным, решение показывает на 30% более высокую точность, чем лучшие локальные аналоги (SOTA), и при этом требует минимум данных для обучения — всего 250 размеченных примеров вместо привычных «тонн датасетов». ⚙️ Как это работает В основе лежит комбинация метамоделей и отслеживания внутренних состояний нейросети. Алгоритм буквально «подглядывает», что происходит у модели внутри, когда она отвечает правильно, и как меняются её внутренние сигналы, если начинается галлюцинация. Используются быстрые трансформеры вроде TabPFNv2 и классические ML-приёмы. Благодаря этому система работает быстро и эффективно. Такой инструмент можно применять: 😅 По сути, это как детектор лжи для нейросетей. Только вместо дрожащего голоса и потных ладоней — подозрительные паттерны.