Faster R-CNN — революция в детекции объектов

Faster R-CNN остаётся одной из самых влиятельных архитектур в области компьютерного зрения и задачах обнаружения объектов на изображениях. Разработанная исследователями Microsoft Research в 2015 году командой под руководством Шаоцина Жэня и Кайминга Хэ, эта модель стала логическим продолжением семейства R-CNN и заложила фундамент для большинства современных двухступенчатых детекторов. Главное новшество Faster R-CNN заключается в появлении Region Proposal Network — специальной нейросети, которая берёт на себя задачу генерации регионов-кандидатов, где потенциально могут находиться объекты. Раньше, в моделях R-CNN и Fast R-CNN, для этого использовался медленный алгоритм Selective Search, работавший на центральном процессоре. RPN же интегрирована в общий граф вычислений и работает на видеокарте, что радикально ускоряет инференс — отсюда и название Faster. Архитектура модели состоит из нескольких ключевых блоков. Первый — это сверточная сеть-бэкбон, чаще всего VGG-16 или ResNet, которая извлекает признаковую карту из исходного изображения. Затем эта карта подаётся одновременно в Region Proposal Network и в детекционную голову. RPN использует механизм якорей — заранее определённых рамок различных масштабов и пропорций — и для каждой позиции предсказывает вероятность наличия объекта и уточняющие смещения координат. После этого слой RoI Pooling приводит выделенные регионы к фиксированному размеру, а финальные полносвязные слои выполняют классификацию и регрессию ограничивающих рамок. По метрикам качества Faster R-CNN значительно превосходила предшественников. На датасете PASCAL VOC 2007 модель достигала mean Average Precision около 73 процентов, а на более сложном COCO показывала конкурентоспособные результаты для своего времени. Скорость работы выросла до пяти-семи кадров в секунду, что приблизило технологию к практическому применению, хотя для реального времени этого по-прежнему было недостаточно. Влияние Faster R-CNN на индустрию трудно переоценить. На её основе выросли такие модели, как Mask R-CNN, добавившая сегментацию объектов, Cascade R-CNN с многоступенчатой проверкой гипотез, а также целый ряд гибридных архитектур. Идея отдельной сети для генерации предложений до сих пор используется в системах автономного вождения, медицинской диагностике, видеоаналитике и промышленном контроле качества. Тем не менее у архитектуры есть и слабые стороны. Двухступенчатый подход проигрывает в скорости одноступенчатым детекторам вроде YOLO и SSD, что критично для мобильных и встраиваемых устройств. Кроме того, тонкая настройка гиперпараметров якорей требует опыта, а сама модель довольно требовательна к памяти видеокарты.