ImageNet Dataset: главный двигатель революции в компьютерном зрении

ImageNet — это масштабная база изображений, которая фактически перевернула представление о возможностях машинного обучения и стала фундаментом для современного компьютерного зрения. Проект был запущен в 2007 году под руководством профессора Стэнфордского университета Фей-Фей Ли. Идея заключалась в создании огромной размеченной коллекции картинок, на которой алгоритмы могли бы учиться распознавать объекты так же, как это делают люди. К моменту публикации в 2009 году датасет содержал миллионы изображений, организованных по иерархии понятий из лексической базы WordNet. Структура ImageNet основана на принципе синсетов — групп слов, обозначающих одно и то же понятие. Каждому такому синсету соответствует набор фотографий, иллюстрирующих этот объект или явление. В полной версии датасет насчитывает более 14 миллионов изображений, распределённых по более чем 20 тысячам категорий — от пород собак и видов грибов до бытовой техники и транспортных средств. Разметку выполняли тысячи людей через платформу Amazon Mechanical Turk, что само по себе стало беспрецедентным экспериментом по краудсорсингу научных данных. Наибольшую известность датасету принёс ежегодный конкурс ILSVRC — ImageNet Large Scale Visual Recognition Challenge, проводившийся с 2010 по 2017 год. Участники соревновались в классификации тысячи категорий на подмножестве из примерно 1,2 миллиона тренировочных изображений. Именно здесь в 2012 году произошёл переломный момент: нейросеть AlexNet, разработанная Алексом Крижевским, Ильёй Суцкевером и Джеффри Хинтоном, обошла традиционные методы с огромным отрывом. Это событие принято считать стартом эпохи глубокого обучения и катализатором инвестиций в нейросетевые технологии. После AlexNet на конкурсе ILSVRC появлялись архитектуры, ставшие классикой индустрии: VGG, GoogLeNet с модулями Inception, ResNet с остаточными связями, SENet и многие другие. Каждая из них не только улучшала точность распознавания, но и предлагала новые идеи, которые затем переносились в задачи сегментации, детекции и генерации изображений. Предобученные на ImageNet модели до сих пор используются как стартовая точка для трансферного обучения в самых разных областях — от медицинской диагностики до спутникового мониторинга. Несмотря на огромное влияние, ImageNet подвергается и критике. Исследователи указывают на предвзятость разметки, наличие устаревших или некорректных категорий, а также этические проблемы, связанные с изображениями людей. В ответ команда проекта провела ревизию датасета, удалив часть проблемных категорий и сократив выборку с людьми. Параллельно появились альтернативы: Open Images от Google, JFT, LAION и другие коллекции, часто превосходящие ImageNet по объёму.