周三,负责监督流行的机器学习性能测试MLPerf的行业联盟MLCommons发布了最新的基准测试报告,其中包括计算机制造商华硕、新华三和浙江省政府于2018年成立的研究机构浙江实验室。中国、浙江大学以及中国零售和人工智能巨头阿里巴巴。
这些政党加入了Nvidia、Qualcomm、Dell和Microsoft等频繁提交者的行列。
MLCommons的执行董事大卫·坎特(DavidKanter)赞扬了提交数量超过3,900份的记录。这些结果涵盖了广泛的计算范围,从数据中心到所谓的“TinyML”,运行在诸如消耗几分之一瓦功率的嵌入式微芯片等设备上。
“这是一个巨大的动态范围,”坎特说。他指出,基准ResNet-50上最快的性能比最慢的系统快一百万倍。“很难在很宽的性能范围内运行,但实际上我们已经做得很好了。”
例如,云数据中心的推理测试给出了大部分提交,这次报告了来自84个系统的14个参与方的926个不同的测试结果。这高于9月版基准测试中13个提交者提交的67个系统的754个报告测试结果。
参与这项为期四年的努力的多家公司可能不会从一份报告到另一份报告都出现。例如,英特尔和惠普企业在9月份均有多次提交报告,但在最新报告中却没有出现。
MLCommons表示,在不同的基准测试分数中,结果显示计算机运行神经网络任务(例如自然语言处理、图像识别和语音识别)的速度提高了3.3倍。
本次报告的一大亮点是,更多的厂商提交了更多的结果来衡量他们的计算机系统在执行人工智能任务时的功耗。正如ZDNet在9月份报道的那样,关于功耗的提交数量从4月份报告中的864份下降到仅350份。
这一次,在30个不同的系统中,云数据中心和云“边缘”设备中的推理有576个报告的功率结果。Krai报告了另外3,948次功率测量,Krai是一家隐形模式的AI初创公司,它总是在“开放边缘”类别中提交大量测试结果,提交者可以自由使用非标准神经网络方法。
Krai这次报告了更多的芯片组合,而之前它只报告了Nvidia的JetsonAGXXavier加速器。这一次,Krai报告了数十种RaspberryPi嵌入式计算设备的结果。
“这一次,具有功率测量的已关闭提交的百分比从15.7%增加到17.6%,因此有所增加,但我们仍有工作要做,”坎特说。“封闭”指的是严格遵守MLCommon基准神经网络配置的提交。
Kanter说,在“开放”的愿景中,提交者可以自由地形成由Krai主导的神经网络形成,带有功率测量的提交数量从32%飙升至86%。
“由于供应链问题,上次我们有一些提交者无法获得功率计,”坎特说。
Kanter指出,MLCommons采用的一些新方法有助于扩大提交范围。例如,这一次,提交者被允许使用所谓的“提前停止”,提交者可以在一定数量的训练“时代”过去之前停止他们的测试,而不是尽可能长时间地训练。
这样做意味着速度较慢的系统(尤其是RaspberryPi等低功耗设备)将不再处于极端劣势,这些系统甚至无法完成基准测试。
“提前停止非常有帮助,”坎特说。“如果你能将运行时间减少十倍,你就可以做十倍多的基准测试。”
在MLPerfTinyML部分,基准测试任务包括诸如检测“唤醒词”(激活智能扬声器或另一个AI助手的东西)的延迟之类的东西-八家供应商与新颖的处理器竞争,包括计算机芯片设计商AndesTechnology。晶心的“AndesCore”芯片采用开源的RISC-V计算机指令集,与ARM、Intel竞争成为可自由修改以适用于任何计算设备的指令集。
在一项常见任务“视觉唤醒词”中,它利用称为COCO14的数据集“上下文中的常见对象”来测试图像中的对象识别,在延迟方面得分最高的是初创公司Plumerai,它创建了自己的软件来在标准微处理器上训练和部署AI模型。
Plumerai使用带有ARMCortexM7处理器内核的STMicroelectronics芯片,在59.4毫秒的延迟内交付了COCO14结果。
报告结果下降的唯一类别是移动ML类别,包括手机和笔记本电脑的结果。高通和三星各自提交了一个系统,一个智能手机,但笔记本电脑类别完全是空的,而在10月份,它有一个来自英特尔的提交。
当被问及移动报告的缺乏时,MLCommons的Kanter指出,移动很难作为一个类别,因为手机是一个产品线,在手机发布之前没有人愿意谈论,这与产品寿命长的云和边缘服务器不同周期。
“[MLCommons]的许多移动成员都是片上系统制造商,他们可能不想以预发布的方式使用合作伙伴的手机,”坎特说。另一方面,提交三四个月手机的基准测试结果的动力较小。
坎特表示,MLCommons正在研究未来的方法,试图通过让智能手机制造商更容易提交而无需放弃其产品揭幕来弥合差距。
“从长远来看,我们想要做的是让它有一种方法,如果你打算在4月23日发布智能手机,比如说,你可以在那天带着MLPerf号码出现在舞台上,这样我们就可以让我们的合作伙伴和我们的成员使用MLPerf启动,”Kanter说。
高通和三星提交的手机包括小米MI12手机(在高通案例中)和三星GalaxyS22+5G,后者展示了各自的处理器Snapdragon8Gen1和Exynos2200。在图像识别和自然语言处理等任务中,在大多数测试中,高通的小米结果的延迟低于三星Galaxy的性能。