Что означает количество изображений в секунду при тестировании графического процессора глубокого обучения?

https://datascience.stackexchange.com/questions/18907

22-10-2019
|

Вопрос

Я проверял производительность нескольких графических процессоров NVIDIA и обнаружил, что обычно результаты представлены в виде количества изображений в секунду, которые можно обработать.Эксперименты обычно проводятся на классических сетевых архитектурах, таких как Alex Net или GoogLeNet.

Мне интересно, означает ли заданное количество изображений в секунду, скажем, 15 000, что 15 000 изображений могут быть обработаны итерацией или для полного изучения сети с таким количеством изображений?Я предполагаю, что если у меня есть 15000 изображений и я хочу вычислить, насколько быстро данный графический процессор будет обучать эту сеть, мне придется умножить их на определенные значения моей конкретной конфигурации (например, количество итераций).Если это не так, используется ли для этих тестов конфигурация по умолчанию?

Вот пример бенчмарка Вывод глубокого обучения на графических процессорах P40 (зеркало)

Решение

Мне интересно, означает ли заданное количество изображений в секунду, скажем, 15 000, что 15 000 изображений могут быть обработаны итерацией или для полного изучения сети с таким количеством изображений?

Обычно где-то уточняют, идет ли речь о форварде (т.вывод, он жетест) время, например.со страницы, которую вы упомянули в своем вопросе:

Еще один пример из https://github.com/soumith/convnet-benchmarks (зеркало):

Другие советы

Мне интересно, означает ли заданное количество изображений в секунду, скажем, 15 000, что 15 000 изображений могут быть обработаны итерацией или для полного изучения сети с таким количеством изображений?Я предполагаю, что если у меня есть 15000 изображений и я хочу вычислить, насколько быстро данный графический процессор будет обучать эту сеть, мне придется умножить их на определенные значения моей конкретной конфигурации (например, количество итераций).В случае это неправда, является там конфигурация по умолчанию используется для этих тестов?

Отчет, на который вы ссылаетесь"Вывод глубокого обучения на графических процессорах P40" использует набор изображений, описанных в статье:"Масштабная задача ImageNet по визуальному распознаванию", набор данных доступен по адресу:"Масштабная задача ImageNet по визуальному распознаванию (ILSVRC)".

Вот рисунок 7 из упомянутой выше статьи и связанный с ней текст:

Отличным примером успехов в глубоком обучении может служить конкурс ImageNet Challenge. $[14]$.Это соревнование представляет собой соревнование, включающее несколько различных компонентов.Одним из компонентов является задача классификации изображений, в которой алгоритмам дается изображение, и они должны определить, что находится на изображении, как показано на рис.6. Обучающий набор состоит из 1,2 миллиона изображений., каждый из которых помечен одной из 1000 категорий объектов, содержащихся в изображении.На этапе оценки алгоритм должен точно идентифицировать объекты в тестовом наборе изображений, которые он ранее не видел.

Инжир.7 показаны выступления лучших участников конкурса ImageNet за несколько лет.Видно, что точность алгоритмов изначально имела коэффициент ошибок 25% и более.В 2012 году группа из Университета Торонто использовала графические процессоры (GPU) из-за их высоких вычислительных возможностей и подход глубоких нейронных сетей под названием AlexNet и снизила уровень ошибок примерно на 10%. $[3]$.

Их достижения вдохновили излияние алгоритмов глубокого стиля обучения, которые привели к постоянному потоку улучшений.

В сочетании с тенденцией к использованию методов глубокого обучения для конкурса ImageNet Challenge произошло соответствующее увеличение числа участников, использующих графические процессоры.С 2012 года, когда только 4 участника использовали графические процессоры, до 2014 года, когда их использовали почти все участники (110).Это отражает почти полный переход от традиционных подходов компьютерного зрения к подходам, основанным на глубоком обучении.

В 2015 году победитель конкурса ImageNet — ResNet $[15]$, превысил точность человеческого уровня с коэффициентом ошибок в топ-54 ниже 5 %.С тех пор уровень ошибок упал ниже 3%, и теперь больше внимания уделяется более сложным компонентам соревнования, таким как обнаружение и локализация объектов.Эти успехи, очевидно, являются фактором, способствующим широкому спектру приложений, в которых применяются DNN.

$[3]$ А.Крижевский, И.Суцкевер и Г.Э.Хинтон, «Классификация ImageNet с глубокими сверточными нейронными сетями», в NIPS, 2012.

$[14]$ О.Русаковский, Я.Дэн, Х.Су, Дж.Краузе, С.Сатиш, С.Ма, З.Хуанг, А.Карпаты, А.Хосла, М.Бернштейн, А.С.Берг и Л.Фей-Фей, «Крупномасштабная задача визуального распознавания ImageNet», Международный журнал компьютерного зрения (IJCV), том.115, нет.3, с.211–252, 2015.

$[15]$ К.Он, Х.Чжан, С.Рен и Дж.Солнце, «глубокое остаточное обучение для распознавания изображений», в CVPR, 2016.

Каждый год возникают разные задачи, например ИЛСВРК 2017 Требуется (неполный список):

Основные проблемы

Локализация объекта
Данные для задач классификации и локализации останутся неизменными с ILSVRC 2012.Данные проверки и тестирования будут состоять из 150 000 фотографий, собранных с Flickr и других поисковых систем, вручную помеченных с указанием наличия или отсутствия 1000 категорий объектов.1000 категорий объектов содержат как внутренние узлы, так и конечные узлы ImageNet, но не перекрываются друг с другом.Случайная подгруппа из 50 000 изображений с метками будет опубликована в качестве данных проверки, включенных в комплект разработки, вместе со списком из 1000 категорий.Остальные изображения будут использоваться для оценки и будут выпущены без меток во время тестирования.Обучающие данные (подмножество ImageNet, содержащее 1000 категорий и 1,2 миллиона изображений) будут упакованы для удобной загрузки.Данные проверки и испытаний для этого соревнования не содержатся в тренировочных данных ImageNet.
...
Победителем конкурса по локализации объектов станет команда, добившаяся минимальной средней ошибки на всех тестовых изображениях.

Обнаружение объектов
Данные обучения и проверки для задачи обнаружения объектов останутся неизменными по сравнению с ILSVRC 2014.Данные испытаний будут частично обновлены новыми изображениями, основанными на результатах прошлогоднего конкурса (ILSVRC 2016).Для этой задачи существует 200 категорий базового уровня, которые полностью аннотированы тестовыми данными, т.е.Ограничительные рамки для всех категорий изображения помечены.Категории были тщательно выбраны с учетом различных факторов, таких как масштаб объекта, уровень загроможденности изображения, среднее количество экземпляров объекта и ряд других.Некоторые из тестовых изображений не содержат ни одной из 200 категорий.
...
Победителем соревнования по обнаружению станет команда, занявшая первое место по точности по большинству категорий объектов.

Обнаружение объектов по видео
По стилю это похоже на задачу обнаружения объектов.Мы частично обновим данные валидации и испытаний для соревнований этого года.Для этой задачи имеется 30 категорий базового уровня, которые являются подмножеством 200 категорий базового уровня задачи обнаружения объектов.Категории были тщательно выбраны с учетом различных факторов, таких как тип движения, уровень загроможденности видео, среднее количество экземпляров объекта и ряд других.Все классы полностью помечены для каждого клипа.
...
Победителем конкурса «Обнаружение по видео» станет команда, добившаяся наилучшей точности по большинству категорий объектов.

Полную информацию смотрите по ссылке выше.

Суммируя:Результаты тестов не означают, что вы можете взять 15 000 твой собственный изображения и классифицируйте их за одну секунду, чтобы получить рейтинг 15 000 /сек.

Это означает, что был конкурс, в котором каждому участнику давался обучающий набор из (недавно) 1,2 млн изображений и вопрос состоящий из 150 000 изображений, победитель быстрее всех правильно определит изображения в вопросе.

Вы должны ожидать, что если вы используете одно и то же оборудование и произвольный набор изображений одинаковой сложности, вы получите степень классификации примерно на сколько рассчитан конкретный алгоритм.Теоретически повторение теста с использованием того же оборудования и изображений даст результат, очень близкий к полученному в конкурсе.

Скорость, с которой можно классифицировать «15 000 изображений», упомянутых в вашем вопросе, зависит от их сложности по сравнению с тестовым набором.Некоторые победители конкурса предоставляют полную информацию о своих методах, а некоторые скрывают конфиденциальную информацию. Вы можете выбрать открытый метод и реализовать его на своем оборудовании — предположительно, вы захотите выбрать самый быстрый общедоступный метод.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange