(原标题:AI存储咬一口兔娘 裸舞,华为的不雅点)
要是您但愿不错经常碰面,接待标星保藏哦~
开始:内容编译自blocksandfiles,谢谢。
MLPerf 存储基准测试勾通了三个责任负载和两种类型的 GPU,呈现出一个六方面的视角,展示了存储系统在处理机器学习任务时让 GPU 保执冗忙的才能。
该基准测试由 MLCommons 制作,这是一个由 125 家以上供应商和组织构成的非盈利 AI 工程定约。MLCommons 坐褥了七项 MLPerf 基准测试,其中一项专注于存储,"测量在覆按模子时,存储系统粗略多快地提供覆按数据。"
MLCommons 官网指出:“高性能 AI 覆按当今需要既大畛域又高速的存储系统,不然造访存储的数据将成为通盘系统的瓶颈。跟着 MLPerf 存储基准测试 v1.0 收场的发布,显然存储系统供应商正在改革以应付这一挑战。”
MLPerf 存储责任组的统一主席 Oana Balmau 示意:“MLPerf 存储 v1.0 收场展示了存储期间联想的更新。目下,似乎还莫得就 ML 系统中存储的‘最好执行’期间架构达成共鸣:咱们收到的 v1.0 基准测试提交禁受了凡俗的私有且有创造性的模式,提供了高速、大畛域的存储处分决策。”
表面上,MLPerf 存储 v1.0 基准测试收场提供了一种比拟不同供应商将机器学习数据传输给 GPU 并使其保执卓越 90% 粗重情状的才能的模式。
可是,收场呈当今一个包含两个表集的单一电子表格文献中,这使得在供应商之间进行比拟——致使在吞并供应商的测试组内进行不同收场的比拟——变得非常困难。最先,有三个分手测试的责任负载——3D Unet、Cosmoflow 和 ResNet50——每个都有 MiB/秒的分数,这意味果真质上存在三个基准测试,而不是一个。
3D Unet 测试柔柔医学图像分割,使用的是“合成生成的文献群,文献大小的散播与真实数据聚集的散播相匹配”。Cosmoflow 是一个科学 AI 数据集,使用合成的天地学数据,而 ResNet50 是一个使用来自 ImageNet 的合成数据的图像分类责任负载。这三种责任负载旨在“最大化 MBit/秒和使用 >90% 加快器应用率的加快器数目。”
工口游戏在线玩这些责任负载提供了多样不同的样本大小,范围从几百兆字节到几百千字节,以及从几毫秒到几百毫秒的凡俗模拟“想考时辰”。它们不错与模拟的 Nvidia A100 或 H100 加快器(GPU)一王人初始,这意味果真质上存在六个独处的基准测试。
咱们参谋了 MLPerf 筹议情况,发言东谈主发挥注解谈:“对于给定的责任负载,模拟的加快器将凭证加快器的谋划和内存特质对存储施加特定的需求,这是一个复杂的非线性函数。在这种情况下,模拟的 H100 将对存储施加比模拟的 A100 更大的需求。”
基准测试分为两种类型:阻滞型初始,允许跨供应商和跨系统的比拟;以及洞开型初始,允许进行兴味的改革收场展示。洞开型允许在调理和改革基准测试和存储系统建树方面具有更多的纯真性,以展示有意于 AI/ML 社区的新局势或新功能。但洞开型明确清除了可比性,以便展示改革。有些东谈主可能会以为领有这两个类别有些分散重见识而非有匡助。
总的来说,MLPerf 存储基准测试类别下有七个单独的基准测试,扫数的收场都存在于一个复杂的电子表格中,且非常难以发挥注解。共有 13 家提交组织:DDN、Hammerspace、HPE、华为、IEIT SYSTEMS、Juicedata、Lightbits Labs、MangoBoost、Nutanix、Simplyblock、Volumez、WEKA 和 YanRong Tech,涵盖了三个责任负载的 100 多个收场。
MLCommons 肃穆东谈主 David Kanter 说:“咱们很得意看到如斯多的存储供应商,不管是大公司依然小公司,参与了这一创举的 v1.0 存储基准测试。这标明行业正注重志到在存储期间中保执改革的必要性,以跟上 AI 期间堆栈的要领,况兼这些期间的性能掂量才能对于得手部署 ML 覆按系统至关不毛。”
咱们珍摄到,戴尔、IBM、NetApp、Pure Storage 和 VAST Data ——扫数这些公司都曾取得 Nvidia 的 BasePOD 或 SuperPOD 认证——并未列入此名单。戴尔和 IBM 都是 MLCommons 的成员。来自这些公司的基准测试初始提交将相当兴味。
Hammerspace 指出:“值得珍摄的是,莫得畛域化 NAS 供应商提交 MLPerf 存储基准测试收场。像戴尔、NetApp、Qumulo 和 VAST Data 这么著明的 NAS 供应商缺席。为什么这些公司莫得提交收场?很可能是因为畛域化 NAS 架构的 I/O 旅途中存在太多性能瓶颈,无法在这些基准测试中发达精湛。”
比拟供应商
为了在基准测试中比拟存储供应商,咱们需要分离出它们的 MLPerf v1.0 基准测试责任负载类型收场,并使用吞并 GPU 在阻滞型初始中进行比拟——举例 3D Unet-H100-Closed。当咱们针对每个责任负载和两种 GPU 类型进行了这么的操作时,发现即使在单个供应商的分数内,收场也大不疏导,这让咱们记念咱们并未确凿进行肖似的比拟。
举例,咱们分离并绘画了一个 3D Unet-H100-Closed 收场集的图表,得出了如下收场:
华为得分 695,480 MiB/秒,而 Juicedata 得分 5,536 MiB/秒,HPE 得分 5,549 MiB/秒,Hammerspace 得分 5,789 MiB/秒。显然,咱们需要以某种模式将华为及肖似的收场与其他收场分离开来,或者以某种模式对其进行归一化处理。
华为的系统正在为 255 个 H100 GPU 提供数据,而其他三个供应商仅处理两个 H100——显然是澈底不同的情况。华为系统有 51 个主机谋划节点,而其他三个供应商则分手莫得指定(Juicedata)和分手为 HPE 和 Hammerspace 提供一个节点。
咱们参谋了 MLPerf 是否应该对主机节点进行归一化以便比拟华为、Juicedata、HPE 和 Hammerspace 等供应商。发言东谈主告诉咱们:“主机节点的数目对于归一化并不非常有用——对此酿成的混浊咱们示意歉意。提交畛域是由模拟加快器的数目和类型来示意的——即十个模拟 H100 从存储角度看是一个模拟 H100 责任量的 10 倍。固然 MLCommons 并未保举特定的归一化决策,但通过加快器进行归一化可能对更凡俗的社区有用。”
咱们这么作念了,将总体 MiB/秒数除以 GPU 加快器的数目,得出了如下图表:
咱们坐窝看到 Hammerspace 的性能最好——在 3D Unet 责任负载阻滞型分组中使用 H100 GPU,每 GPU 的 MiB/秒分手为 2,895 MiB/秒(六个存储奇迹器)和 2,883 MiB/秒(22 个存储奇迹器)。Lightbits Labs 紧随后来,得分为 2,814 MiB/秒,接下来是 Nutanix,得分为 2,803 MiB/秒(四个节点)和 2,630 MiB/秒(七个节点)。Nutanix 还得到了最低分——2,630 MiB/秒(32 个节点),这标明朗来果跟着节点数目的加多而松开。
Hammerspace 宣称,它是独逐一个使用圭表企业存储收罗和接口收尾 HPC 级别性能的供应商。[点击此处下载 Hammerspace 的 MLPerf 基准测试规格。]
华为的总容量为 457,764TB(362,723TB 可用),Juicedata 为无尽容量(无尽可用!),HPE 为 171,549.62TB(112,596.9TB 可用),而 Hammerspace 为 38,654TB(37,339TB 可用)。似乎莫得有用的关系将总容量或可用容量与基准测试分数筹议起来。
咱们参谋了 MLPerf 这小数,得到的回复是:“总容量或可用容量与基准测试分数之间的关系在某种进度上是提交特定的。一些提交者可能有独处扩张容量和存储朦拢量的局势,而其他东谈主可能莫得。”
Volumez
Volumez 的洞开型分组测试使用了 3D Unet 责任负载和 411 个 H100 GPU,得分为 1,079,091 MiB/秒,这是扫数 3D Unet H100 基准测试中得分最高的,卓越了华为的 695,480 MiB/秒。
Volumez 的首席居品官 John Blumenthal 告诉咱们:“咱们的洞开型提交与阻滞型提交基本疏导,但有两个关键区别。最先,咱们使用 NPY 文献,而不是压缩的 NPZ 文献。这种局势减少了对主机内存总线的使用,使咱们粗略在每个主机上初始更多的 GPU,从而有助于裁减资本。其次,数据加载绕过了 Linux 页面缓存,因为它并非为高带宽存储责任负载联想。”
Volumez 提交了第二个收场,得分为 1,140,744 MiB/秒,Blumenthal 发挥注解谈:“在第二次提交中,咱们修改了基准测试中障蔽的使用。咱们想展示在大畛域覆按经过中在每个 epoch 收尾时履行障蔽操作,会遏止此类环境中存储系统性能的准确测量。”
YanRong Tech
YanRong Tech 对咱们来说是一家新厂商。发言东谈主 Qianru Yang 告诉咱们:“YanRong Tech 是一家专注于高性能散播式文献存储的中国公司。目下,咱们为中国好多率先的 AI 模子客户提供奇迹。瞻望众人,咱们但愿与海外同业接轨,鼓舞高性能存储期间的逾越。”
咱们了解到,该公司的 YRCloudFile 是一款高性能、数据中心级别的散播式分享文献系统居品,专为软件界说环境打造,粗略为客户的 AI 和高性能责任负载提供快速、高度可扩张且具备弹性的文献系统。
华为分享对 MLPerf 存储基准的认识
MLPerf Storage v1.0 基准测试引起了好多对于供应商得分如何以及应该如何比拟的计议。华为以为应该使用每秒样本处理量(samples/sec)的评分进行比拟,并凭证存储节点或机架单元进行归一化,而不是使用 MiB/sec 的朦拢量评分。
基准测试收场通过三个与 AI 筹议的责任负载,测量存储系统的朦拢量(以 MiB/秒为单元),提供了一种比拟不同供应商系统将机器学习数据传输至 GPU 并保执其卓越 90% 责任负荷才能的局势。
咱们以为不同供应商之间的互异如斯之大,以至于应该通过某种模式进行归一化,以便更合理地比拟供应商的发达。咱们向 MLPerf 参谋是否应该针对主机节点进行归一化,以便比拟华为、Juicedata、HPE、Hammerspace 等供应商时,发言东谈主告诉咱们:“提交的畛域由模拟加快器的数目和类型决定——举例,从存储角度看,十个模拟 H100 的责任量是一个模拟 H100 责任量的 10 倍。固然 MLCommons 不守旧特定的归一化决策,但凭证加快器数目进行归一化可能对更凡俗的社区有用。”
咱们如实这么作念了,将总 MiB/秒的数值除以 GPU 加快器的数目,并生成了这个图表:
华为以为这种归一化局势不对适。肃穆华为品牌和市集履行的 Jiani Liang 告诉咱们:“你将总 MiB/秒数值除以 GPU 加快器的数目进行比拟。我以为这不安妥现时基准测试按序的界说。
“每 GPU 带宽是 AI 东谈主员聚合存储守旧 GPU 覆按速率的一个好绸缪,但前提是指定疏导的 GPU 集群畛域,因为不同的 GPU 数目意味着对存储的 I/O 压力不同,从而会影响提供给每个 GPU 的带宽。小畛域的 GPU 集群对存储施加的 I/O 压力较小,导致每 GPU 带宽略高。这一趋势在你的著述图表中也不错不雅察到。
“举例,雷同使用 YanRong 的 F8000X,在一个 12-GPU 集群中,每个 GPU 的平均带宽是 2,783 MiB/秒,但在一个 36-GPU 集群中,这个值是 2,711 MiB/秒。另一方面,GPU 数目越多,GPU 之间同步的支拨也越大。
“咱们还使用基准测试在每个主机上有疏导 GPU 数目的情况下,测试了不同主机数目下的同步时辰。正如你从下图所看到的,跟着主机数目和 GPU 数目的加多,同步支拨在总时辰中的比例加多,导致每 GPU 带宽着落。即使使用疏导的存储系统,这两个身分也会影响每 GPU 带宽,导致可比性丧失。”
“由于目下基准测试未指定总 GPU 数目和每奇迹器 GPU 数目,这一绸缪在莫得疏导 GPU 集群畛域的情况下被不实地归一化。”
凭证 MLPerf Storage v1.0 基准测试按序:“基准测试性能绸缪是每秒样本处理量(samples per second),并得志为该责任负载界说的最低加快器应用率(AU)。每秒样本处理量越高越好。”
Jiani Liang 说:“因此,挑战在于一个存储系统粗略提供的最高朦拢量。我同意你说的,咱们如实需要以某种模式归一化收场,因为提交的存储系统畛域各不疏导。凭证存储节点或存储机架单元进行归一化可能更安妥进行比拟。”
辩驳
在 MLPerf Storage 术语中,一个样本是覆按所处理的数据单元,举例一张图片或一句话。基准测试存储扩张单元被界说为用于加多存储系统性能和畛域的最小单元。存储扩张单元的示例包括节点、收场器、杜撰机或存储架。通过不同数目的存储扩张单元初始基准测试,不错评估给定存储处分决策跟着扩张单元加多的扩张才能。
咱们珍摄到 MLPerf Storage 基准测试收场表以 MiB/秒的单元呈现供应商系统的分数,而不是每秒样本处理量(samples/sec)。咱们已向该组织参谋每秒样本处理量是如何调理为 MiB/秒的,收到回话后咱们将补充筹议信息。
https://blocksandfiles.com/2024/09/26/mlperf-storage-benchmark-2/
https://blocksandfiles.com/2024/09/30/huawei-mlperf-storage-benchmark/
半导体极品公众号保举
专注半导体畛域更多原创内容
柔柔众人半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或守旧,要是有任何异议,接待筹议半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3902内容,接待柔柔。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”分享给小伙伴哦咬一口兔娘 裸舞