测试深度学习GPU时,每秒的图像意味着什么?
-
22-10-2019 - |
题
我一直在审查几个NVIDIA GPU的性能,我发现通常会以“每秒图像”的方式提出结果。实验通常是在Alex Net或Googlenet等经典网络体系结构上进行的。
我想知道是否每秒给定数量的图像,例如15000,意味着可以通过迭代处理15000张图像,或者可以用该数量的图像来充分学习网络?我想,如果我有15000张图像,并且想计算给定的GPU训练该网络的速度,我将不得不乘以某些特定配置的值(例如迭代次数)。如果这不是真的,是否有用于此测试的默认配置?
这里是基准的示例 对P40 GPU的深度学习推断 (镜子)
解决方案
我想知道是否每秒给定数量的图像,例如15000,意味着可以通过迭代处理15000张图像,或者可以用该数量的图像来充分学习网络?
通常,他们在某个地方指定是否谈论前进(又称推理测试)时间,例如您在问题中提到的页面:
其他提示
我想知道是否每秒给定数量的图像,例如15000,意味着可以通过迭代处理15000张图像,或者可以用该数量的图像来充分学习网络?我想,如果我有15000张图像,并且想计算给定的GPU训练该网络的速度,我将不得不乘以某些特定配置的值(例如迭代次数)。如果 这不是真的, , 是 那里有默认配置 用于此测试?
您提到的报告“对P40 GPU的深度学习推断“使用论文中描述的一组图像:”Imagenet大规模视觉识别挑战“,数据集可用:”Imagenet大规模视觉识别挑战(ILSVRC)".
这是上面引用的论文的图7,以及相关的文本:
深度学习成功的一个很好的例子可以通过Imagenet挑战来说明 $[14]$. 。这项挑战是涉及几个不同组成部分的比赛。其中一个组件是一个图像分类任务,其中给出了算法的图像,它们必须识别图像中的内容,如图6所示。 培训集由120万图像组成, ,每个图像包含的1000个对象类别之一标记。对于评估阶段,该算法必须准确地识别一组测试图的对象,这是以前尚未看到的。
图7显示了多年来ImageNet比赛中最佳参赛者的表现。人们认为该算法的准确性最初的错误率为25%或以上。 2012年,来自多伦多大学的一组使用图形处理单元(GPU)具有高度计算能力和深度神经网络方法,名为Alexnet,并将错误率降低了约10% $[3]$.
他们的成就激发了深度学习风格算法的倾泻,这导致了稳定的改进。
结合对ImageNet挑战的深度学习方法的趋势,使用GPU的参赛者数量相应增加。从2012年,只有4位参赛者使用GPU到2014年,几乎所有参赛者(110)都在使用它们。这反映了从传统的计算机视觉方法到竞争的深度学习方法的几乎完全转变。
在2015年,Imagenet获胜条目,重新设置 $[15]$, ,超过人类水平的准确性,前5位错误率4低于5%。从那时起,错误率下降到3%以下,现在将更多的重点放在竞争的更具挑战性的组成部分上,例如对象检测和本地化。这些成功显然是对应用DNN的广泛应用的一个促成因素。
$[3]$ A. Krizhevsky,I。Sutskever和Ge Hinton,“具有深卷积神经网络的Imagenet分类”,2012年,2012年。
$[14]$ O. Russakovsky,J。Deng,H。Su,J。Krause,S。Satheesh,S。Ma,Z。Huang,A。Karpathy,A。Khosla,M。Bernstein,AC Berg和L. Fei-Fei, “ Imagenet大规模视觉识别挑战”,《国际计算机视觉杂志》(IJCV),第1卷。 115,不。 3,第211–252页,2015年。
$[15]$ K. He,X。Zhang,S。Ren和J. Sun,“图像识别的深度残留学习”,2016年,CVPR。
例如,每年都有不同的挑战 ILSVRC 2017 必需(部分列表):
主要挑战
对象本地化
分类和本地化任务的数据将与ILSVRC 2012保持不变。验证和测试数据将由15万张照片组成,这些照片由Flickr和其他搜索引擎收集,并用1000个对象类别的存在或不存在手工标记。 1000个对象类别既包含ImageNet的内部节点和叶子节点,又不相互重叠。随机的50,000个带有标签的图像的子集将作为开发套件中包含的验证数据以及1000个类别的列表发布。其余图像将用于评估,并将在测试时间没有标签上发布。培训数据是包含1000个类别和120万张图像的Imagenet子集,以便于下载。 ImageNet培训数据中不包含该竞争的验证和测试数据。
...
对象本地化挑战的获胜者将是在所有测试图像中达到最小平均错误的团队。对象检测
对象检测任务的培训和验证数据将与ILSVRC 2014保持不变。根据去年的竞争,测试数据将部分刷新新图像(ILSVRC 2016)。该任务有200个基本级别类别,这些类别已在测试数据上完全注释,即图像中所有类别的边界框都已标记。这些类别被仔细选择,以考虑不同的因素,例如对象量表,图像混乱的水平,平均对象实例数以及其他几个。一些测试图像将不包含200个类别。
...
检测挑战的获胜者将是在大多数对象类别上获得第一名的团队。视频检测对象检测
这在样式上与对象检测任务相似。我们将部分刷新今年竞争的验证和测试数据。此任务有30个基本级别类别,这是对象检测任务的200个基本级别类别的子集。考虑了不同因素,例如移动类型,视频混乱程度,平均对象实例数以及其他几个因素。所有类都为每个剪辑完全标记。
...
视频挑战赛检测的获胜者将是在大多数对象类别上实现最佳准确性的团队。
有关完整的信息,请参见上面的链接。
简而言之:基准结果并不意味着您可以服用15,000 你自己 图像并在一秒钟内对它们进行分类,以达到15k/sec的评级。
这意味着有一场比赛,每个参赛者都接受了一组(最近)120万张图像的培训。 问题 由150,000张图像组成,获胜者正确地标识了问题中最快的图像。
您应该期望,如果您使用相同的硬件和一组任意图像,相似的复杂性,您将获得分类率 大约 但是,许多特定算法的额定值。从理论上讲,使用相同的硬件和图像重复测试的结果将非常接近比赛中获得的结果。
与测试集相比,您的问题中提到的“ 15,000张图像”的速度取决于它们的复杂性。一些竞赛获奖者提供了有关其方法的完整信息,一些参赛者隐藏了专有信息,您可以选择一种打开的方法并在硬件上实现 - 大概您需要选择最快的公开可用方法。