CIFAR-10 dataset — легендарный эталон для компьютерного зрения

Среди множества наборов данных, используемых в машинном обучении, CIFAR-10 dataset занимает особое место. Этот компактный, но удивительно содержательный набор изображений на протяжении более чем десяти лет остаётся одним из главных инструментов для тестирования алгоритмов распознавания образов. Его имя знакомо каждому, кто хотя бы однажды погружался в мир свёрточных нейронных сетей. CIFAR-10 был создан исследователями Канадского института перспективных исследований — Алексом Крижевским, Винодом Наиром и Джеффри Хинтоном. Название происходит от аббревиатуры Canadian Institute For Advanced Research, а цифра десять указывает на количество классов изображений. Набор является подмножеством более крупной коллекции под названием 80 Million Tiny Images, собранной в Массачусетском технологическом институте. Структура датасета отличается изящной простотой. Он содержит шестьдесят тысяч цветных изображений размером тридцать два на тридцать два пикселя, разделённых на десять категорий: самолёт, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик. Каждый класс представлен шестью тысячами картинок, что обеспечивает идеальный баланс. Пятьдесят тысяч изображений отведено для обучения, оставшиеся десять тысяч — для тестирования моделей. Популярность CIFAR-10 объясняется удачным сочетанием доступности и сложности. С одной стороны, малый размер изображений и общий объём данных позволяют тренировать модели даже на скромном оборудовании, что особенно ценно для студентов и исследователей с ограниченными ресурсами. С другой стороны, низкое разрешение и схожесть некоторых классов между собой, например кошек и собак, делают задачу классификации действительно непростой. Этот набор сыграл важную роль в развитии глубокого обучения. На нём обкатывались многие революционные архитектуры — от ранних версий ResNet и DenseNet до современных моделей на основе трансформеров. Точность лучших алгоритмов на CIFAR-10 за годы выросла с примерно восьмидесяти процентов до значений, превышающих девяносто девять процентов, что наглядно демонстрирует прогресс отрасли. CIFAR-10 также стал стандартом для исследований в области состязательных атак, дистилляции знаний, обучения с малым количеством примеров и регуляризации нейронных сетей. Его часто используют в академических публикациях как обязательный бенчмарк, позволяющий сравнить новый метод с десятками существующих подходов.