DeepSeek выпустила быструю и экономичную систему распознавания документов

Компания DeepSeek представила новую модель DeepSeek-OCR — инструмент, который не просто считывает текст с изображений, но и восстанавливает структуру документа - заголовки, таблицы, списки и подписи к рисункам. Результат можно сразу получить в формате Markdown — удобно для поиска, анализа или загрузки в другие нейросети. А главное, что система абсолютно бесплатна и доступна под лицензией MIT на платформе Hugging Face. В чём фишка Главное новшество это технология оптического сжатия контекста. Обычно OCR-модели стараются сохранить каждую мелочь на странице, из-за чего результат получается громоздким. DeepSeek пошла другим путём — сохраняет только важное: текст и логику документа. Такой подход уменьшает объём данных в 10–20 раз. А это значит — меньше токенов, меньше вычислений, ниже затраты. Итог: распознавание становится в десятки раз дешевле и быстрее без потери качества. Как это работает Модель использует так называемые визуальные токены — миниатюрные взгляды на разные части страницы. Даже при 64–100 таких токенах точность остаётся на уровне 97–99%. Для сложных документов предусмотрен режим Gundam — система разбивает страницу на части, анализирует их по отдельности и потом объединяет в цельный результат. Это помогает обрабатывать даже многостраничные и визуально перегруженные документы без снижения скорости. Кроме того, DeepSeek-OCR привязывает текст к координатам на странице — можно точно определить, где на документе находится таблица, подпись или график. Что показали тесты На тестах Fox и OmniDocBench модель показала впечатляющие результаты: По сути, DeepSeek-OCR делает то же, что и дорогие коммерческие системы, но быстрее и почти бесплатно. Для компаний, которые обрабатывают тонны документов — от юридических до медицинских — это может стать реальной экономией бюджета.