Skip navigation

国际开放测试基准与标准委员会(国际测试委员会)

 

BenchCouncil性能榜

我们使用工业级的数据中心人工智能测试标准AIBench评测了不同的GPU型号,并且使用面向IoT的人工智能测试标准AIoT Bench测试了多种智能手机芯片。BenchCouncil将定期发布性能榜数据,面向更多的领域并评测更多的智能芯片及加速器。同时,我们鼓励硬件厂商和第三方测试机构加入到我们的评测中并且报告数据。

性能指标: 性能指标包含训练性能指标和推理性能指标两部分。其中,训练性能指标主要从单位时间的处理速度(如每秒处理的图片或音频个数)、训练到目标精确度所使用的时间、以及训练的能耗进行评测;推理性能指标主要评测在统一测试集上的推理时间开销、能耗开销、以及精度。具体的指标如下:
训练性能指标:

  • Samples/second:每秒处理的训练样本个数,如图片、音频等。
  • Time to Accuracy: 训练一个模型达到特定的精确度所需要的时间。
  • Energy consumption to Accuracy: 训练一个模型达到特定的精确度的能耗。

推理性能指标:

  • Samples/second:每秒推理的样本个数,如图片、音频等
  • Inference time: 在统一测试集上推理的时间。
  • Accuracy: 在统一测试集上推理的精度。
  • Energy consumption: 在统一测试集上的推理能耗开销。

智能芯片性能榜

数据中心智能芯片性能榜使用BenchCouncil维护的工业级人工智能测试标准AIBench进行评测,AIBench是BenchCouncil组织联合中科院计算所、阿里巴巴、百度、腾讯、微软亚洲研究院、寒武纪、RISC-V联盟、58同城、网易、字节跳动、中国计量科学研究院、知乎、联想、Paypal、墨奇、华为、京东、普林斯顿大学、中科云达、云天励飞等数十家研究机构和公司共同推出的首个工业标准的人工智能测试标准,它抽象了以搜索引擎、电子商务和社交网络为代表的互联网服务应用中主要的16种AI问题域,涵盖图像分类、图像生成、文本翻译、看图说话、图像变换、语音识别、人脸识别、三维人脸识别、目标检测、视频预测、图像压缩、智能推荐、三维物体重建、文本摘要生成、空间变换以及智能排序,并针对这些问题域提供了一个高度可扩展、可配置以及灵活的测试标准构建框架,支持快速构建真实的端到端应用级测试标准、组件级测试标准以及微测试标准。目前,AIBench提供12个微测试标准,如卷积、全连接、激活函数等,16个组件级测试标准,以及2个应用级测试标准---电商搜索和DCMix,包含人工智能的在线推理模块和离线训练模块。同时,AIBench包含16种真实数据集,覆盖文本、图像、音频、视频、3D数据,并提供多种软件栈的实现。

首轮智能芯片性能榜主要针对八种不同系列、不同架构、不同显卡容量以及不同售价的英伟达GPU进行了全方位的评测,覆盖人工智能负载的训练性能和推理性能。由于目前国产芯片暂无购买渠道,本次智能芯片性能榜主要针对GPU进行评测,另外部分厂商正在联系我们,后续的智能芯片性能榜将会发布更多的性能排名。

GPU Type GPU Architecture GPU Memory
Tesla V100 NVIDIA Volta 32GB
Tesla V100 NVIDIA Volta 16GB
GeForce RTX 2080Ti NVIDIA Turing 11GB
GeForce RTX 2080 NVIDIA Turing 8GB
GeForce RTX 2070 NVIDIA Turing 8GB
Tesla P100 NVIDIA Pascal 16GB
Titan XP NVIDIA Pascal 12GB
GeForce GTX 1080Ti NVIDIA Pascal 11GB

本次评测主要使用AIBench中六种典型的组件级测试标准,覆盖文本、图像和音频处理,分别是图像分类、图像变换、语音识别、目标检测、看图说话、以及人脸识别。

  • 图像分类根据图像的语义信息区分不同类别的图像,该负载使用ImageNet 2012数据集,数据规模100GB以上;
  • 图像变换学习输入图像到输出图像的映射关系,从而实现图像的变换表示,如风格变换、季节变换、物体变换等,该负载使用Cityscapes数据集,包含五十多个城市的街景数据,数据规模约300MB;
  • 语音识别负载识别语音信息并翻译成文本,该负载使用LibriSpeech数据集,包含1000多个小时的语音数据,大约6GB训练数据以及300MB测试数据;
  • 目标检测负载发现图像中所有的目标或物体,并确定类别和位置,该负载使用MSCOCO2014数据集,包含八万多个训练样本,四万多个验证样本和四万多个测试样本,规模超过20GB;
  • 看图说话负载学习图像的语义信息,自动生成图像对应的描述文本,其使用MSCOCO2014数据集;
  • 人脸识别负载检测图像中的人脸信息,该负载使用VGGFace2数据集,包含36GB训练数据和约2GB测试数据。

单卡训练性能测试

我们测试了六种人工智能负载在八种单GPU卡上的训练性能。测试结果表明V100在所有负载上的训练性能最好,大概有1-2倍的性能优势。GeForce RTX 2080Ti在其中四种负载上的训练性能仅次于V100,考虑到价格的因素,2080Ti具有更高的性价比。另外,8GB的显卡容量已不适用于部分负载越来越高的显存需求,例如目标检测负载在RTX2080和2070上均会运行报错。




多卡训练性能测试

我们进一步评测了不同GPU在2卡和4卡的训练性能。我们发现从多卡的绝对性能来看,V100 32GB的多卡训练性能最好,最高能有2倍多的性能优势,然而,从多卡加速比方面来看,V100的多卡加速比并不是最好的,其2卡加速比大约1.77倍,4卡加速比约3.16倍,其中,2卡加速比最高的是P100(1.83倍),4卡加速比最高的为TITANXP(3.37倍)。另外,TITAN XP和2080Ti的多卡性能较次于V100性能,具有更高的性价比。




单卡推理性能测试

除了训练性能,我们同样评测了不同GPU卡的推理性能。我们发现V100同样具有较高的推理性能,最高具有4倍多的推理性能优势。TITAN XP的推理性能较次于V100的性能,具有更高的性价比。同样地,对于推理而言,RTX2080和2070的显存容量也不适用于某些人工智能负载,如目标检测。