Skip navigation

国际开放测试基准与标准委员会(国际测试委员会)

 

测试基准与标准

BenchCouncil现组织维护多个测试基准与标准项目,覆盖HPC、数据中心、IoT 和Edge等领域的人工智能、大数据及开源芯片基准测试。BenchCouncil组织鼓励公司、研究所、组织、个人广泛参与到现有测试基准与标准项目的构建中,同时也鼓励提交相关基准测试提议并成立对应的测试标准工作组。

大数据测试基准BigDataBench [HPCA'14]

大数据测试基准BigDataBench采用增量式和迭代式的构建方法,目前最新版本BigDataBench 5.0提供了13个代表性的真实数据集和25个大数据负载。这些负载抽象自三种重要的应用领域,包含以搜索引擎、电子商务和社交网络为代表的互联网服务领域、多媒体领域以及生物信息学领域,同时覆盖了六种典型的负载类型,包含在线服务、离线分析、图分析、数据仓库、NoSQL以及流处理。BigDataBench基于data motif进行构建,它抽象了大数据负载中频繁出现且耗时的数据计算单元,并从三种不同层次进行刻画,从而满足不同的评测需求。(1)微测试基准与标准。每一个微测试基准与标准是单个数据计算单元data motif的实现,满足算子级别的细粒度评测;(2)组件级测试基准与标准。每一个组件级测试基准与标准是不同data motif不同比例的组合,从真实负载级别进行评测;(3)端到端的应用级测试基准与标准。每一个应用级测试基准与标准是工业标准的复杂应用领域抽象,包含不同的组件,如在线服务和离线分析等,它抽象了整体的数据流动和处理逻辑,能够从复杂应用级别进行工业级的评测。同时,数据集对于负载的行为特征和执行性能具有非常大的影响 (CGO’18),因此,BigDataBench涵盖了多样的数据类型和数据语义。从数据类型方面提供了结构化、半结构化和非结构化的数据集,从数据语义方面提供了文本、图、表、图像、音视频等。为了满足不同数据规模的测试,我们也提供了保持真实数据特性的数据生成工具BDGS,它能够以真实数据作为种子生成指定规模的符合真实数据特性的大数据。

工业标准的数据中心人工智能测试基准AIBench [技术报告2020技术报告2019Bench18标准规范]

AIBench是BenchCouncil组织联合17家互联网公司共同推出的首个工业标准的人工智能测试基准。AIBench提供了一个高度可扩展、可配置以及灵活的测试基准构建框架,包含多个松耦合的组件,如数据输入组件、AI问题域组件、在线推断组件、离线训练组件以及大规模自动部署工具。通过调研分析以搜索引擎、电子商务和社交网络为代表的互联网服务应用,我们抽象并提取了16种主要的AI问题域,涵盖图像分类、图像生成、文本翻译、看图说话、图像转图像、语音识别、面部嵌入、3D人脸识别、目标检测、视频预测、图像压缩、智能推荐、三维物体重建、文本摘要生成、空间变换以及智能排序。AIBench的各个松耦合组件单独可构成多个微测试基准和组件级测试基准,满足单个负载的细粒度的评测,同时,AIBench通过多个组件的连接可组合成真实的工业级应用。目前,AIBench提供了12个微测试基准,如卷积、全连接、激活函数等,并针对16个AI问题域构建了16个组件级测试基准,同时还提供了两个端到端的应用级测试基准---电商搜索和DCMix。其中,电商搜索基于AIBench框架组合构建,抽象了电子商务搜索的整体流程,包含在线AI推理和离线AI训练等模块。DCMix模拟了真实数据中心的混合部署场景,通过配置可构建真实的混合应用,包含延迟敏感的在线服务应用和延迟不敏感的离线分析应用等。

智能超算测试基准HPC AI500 [技术报告2020Bench18标准规范]

HPC AI500是针对高性能计算的人工智能测试基准。它覆盖了三种典型的科学计算场景,包括极端天气分析、高能物理以及宇宙学,并提供了三个典型的科学数据集和七个人工智能负载。负载方面包括3个微测试基准以及4个组件级测试基准,其中,微测试基准使用CUDA和MKL两种软件栈实现,组件级测试基准使用TensorFlow和PyTorch两种软件栈实现。

IoT人工智能测试基准AIoTBench [Bench18标准规范]

AIoTBench是面向移动设备和嵌入式设备的人工智能测试基准,它提供了三种典型的真实数据集和12种人工智能测试负载。这些负载覆盖了三种应用领域,包含图像识别、语音识别和自然语言处理,分为9个微测试基准和3个组件级测试基准。从实现方面,这些负载提供了不同框架在不同平台上的实现,包括使用TensorFlow和Caffe2两种主流的人工智能计算框架分别在安卓平台和树莓派上的实现。

边缘计算人工智能测试基准Edge AIBench [Bench18标准规范]

边缘计算人工智能测试基准Edge AIBench是首个全面的端到端的人工智能测试基准。它抽象了4种典型的边缘计算场景,包括ICU病人监测、监控摄像头、智能家居和自动驾驶。针对这四种场景,Edge AIBench提供了5种典型的真实数据集以及16种人工智能负载,这些负载分为8个微测试基准和8个组件级测试基准。同时,我们也构建了结合联邦学习的边缘计算人工智能实验床。

BenchCouncil人工智能标准规范介绍了基准测试集、术语和领域背景,并定义了基准测试 构造方法、设计规范和准则等,包括被测系统(SUT),负载运行生命周期,目标质量,评测场景及指标,实现约束,测l试和结果发布程序,以>及BenchCouncil提供的参考实现。

AI标准规范征集评论意见

  • BenchCouncilTM AIBench标准规范
    草案 1.0 [PDF]
  • BenchCouncilTM HPC AI500 标准规范
    草案 1.0 [PDF]
  • BenchCouncilTM Edge AIBench 标准规范
    草案 1.0 [PDF]
  • BenchCouncilTM AIoTBench 标准规范
    草案 1.0 [PDF]

医学大数据人工智能测试基准Medical AI

BenchCPU

EChip

智能电网测试基准Smart Grid

其他测试基准和标准提议

BenchCouncil组织鼓励任何公司、研究所、组织、个人参与到现有的8个测试基准与标准项目中,同时也鼓励提交新的测试基准或标准提议。目前BenchCouncil已收到八个测试基准和标准提议。