国际最新AI基准测试SPEC ML首提模算效率，填补大模型计算效率评测空白-天脉财经

北京2025年1月8日 /美通社/ -- 日前，国际标准性能评估组织SPEC公布了AI基准测试SPEC ML最新进展，该基准已完成面向不同AI负载下的软硬件系统的性能、扩展性和模算效率三大关键指标构建。其中模算效率首次纳入SPEC ML基准评测，将填补大模型计算效率评测基准领域的研究空白。

随着人工智能更加广泛的应用，为AI/ML建立强大的基准测试比以往任何时候都更加重要。SPEC ML基准委员会主席Arthur Kang表示，统一的基准评测方法不仅有助于简化模型比较，还将为注重效率、准确性和可持续性的创新铺平道路。目前AMD、英特尔、NVIDIA、浪潮信息、NetApp和Red Hat等科技企业正在共同参与开发 SPEC ML基准测试，SPEC呼吁更多伙伴参与到项目中，通过产业上下游的合作，为大模型的开发应用树立新的性能评估标杆，为AI技术的高效、绿色、可持续发展注入新动力，共创更加繁荣与可持续的AI新时代。

近年来，随着预训练模型的快速发展，人工智能领域迎来了显著的技术进步。这些模型通过大规模数据集的预训练，并结合微调技术来适应不同任务，在自然语言处理和计算机视觉等多个领域取得了显著成效。然而，随着模型结构和参数量的日益复杂，其在不同软件框架和硬件平台上的表现存在差异，如何全面、公正地比较模型、算力系统的综合性能变得愈加困难。为了在不增加大规模计算资源投入的情况下提升模型的准确性和效率，建立统一的基准测试体系已成为AI领域的迫切需求，这不仅可以帮助开发者选择最适合的技术方案，还能为优化计算资源利用、降低碳排放提供科学的参考依据。

但当前业界在模型、框架和硬件协同效能评估方面存在显著空白，缺乏统一的评估基准，评估过程难以量化，导致开发者难以做出最优的技术选择。尤其是在大型模型的训练和推理过程中，计算资源和能源的消耗成为行业面临的重要挑战。如何在满足性能需求的同时优化计算资源的利用，降低能源消耗，是当前研究和应用的关键所在。为此，SPEC ML首次提出将模算效率纳入基准评测，模型本身精度越高、在对应软件上对硬件性能利用率越高、推理及训练所需算力越小，模算效率越高。模算效率的评价对象涵盖了AI大模型、运行框架和硬件算力平台的一整套软硬件系统。

模算效率的首次提出，将增强不同预训练模型、软件框架和硬件系统之间的可比性，促进模型与硬件的协同优化，推动AI计算系统的能效提升和技术创新：

提升可比性与公正性：统一的基准测试标准能够提供公平的评估平台，帮助开发者、研究人员和企业通过可量化的指标对不同模型、框架和硬件平台进行公正比较。
促进模型与硬件的协同优化：通过标准化的基准测试，不仅能提高模型的效能，还能指导硬件平台与软件框架的协同发展。通过合理配置计算资源，可以在保证高效性和准确性的前提下，减少不必要的计算开销，从而降低成本和碳排放。
推动绿色发展与可持续性：随着模型规模和计算需求的增长，能源消耗和碳排放问题日益严峻。标准化的基准测试能够帮助行业识别效率低下的环节，促进绿色计算技术的发展，推动AI技术朝着更可持续的方向发展。
激发创新与优化：明确的评估标准为开发者提供了方向，能够帮助开发者识别现有技术的瓶颈，进一步推动技术突破和创新。通过标准化的测试，软硬件的开发中可以更加专注于如何提升模型的效能和计算效率，而不是陷入复杂且不一致的评估过程中。