首页 > > 操作系统 > Linux >

基于NUMA架构的高性能服务器技术(1)

2009-05-13 01:07:06来源：未知阅读 ()

NUMA（Non-UniformMemoryAccessArchitecture）系统在市场上的应用越来越广泛，许多厂商都成功推出了基于NUMA架构的服务器，本文重点讨论了当前Linux的NUMA技术，主要包括：存储管理、NUMA调度和用户层的API，并在SGI的Altix350系统上进行了NUMA基本测试，对进行LinuxNUMA技术的研究具有参考价值。

一、引言
随着科学计算、事务处理对计算机性能要求的不断提高，SMP（对称多处理器）系统的应用越来越广泛，规模也越来越大，但由于传统的SMP系统中，所有处理器都共享系统总线，因此当处理器的数目增大时，系统总线的竞争冲突加大，系统总线将成为瓶颈，所以目前SMP系统的CPU数目一般只有数十个，可扩展能力受到极大限制。NUMA技术有效结合了SMP系统易编程性和MPP（大规模并行）系统易扩展性的特点，较好解决了SMP系统的可扩展性问题，已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于NUMA架构的高性能服务器，如HP的Superdome、SGI的Altix3000、IBM的x440、NEC的TX7、AMD的Opteron等。随着Linux在服务器平台上的表现越来越成熟，Linux内核对NUMA架构的支持也越来越完善，特别是从2.5开始，Linux在调度器、存储管理、用户级API等方面进行了大量的NUMA优化工作，目前这部分工作还在不断地改进，如新近推出的2.6.7-RC1内核中增加了NUMA调度器。本文主要从存储管理、调度器和CpuMemSets三个方面展开讨论。

二、NUMA存储管理
NUMA系统是由多个结点通过高速互连网络连接而成的，如图1是SGIAltix3000ccNUMA系统中的两个结点。
　
图1SGIAltix3000系统的两个结点
NUMA系统的结点通常是由一组CPU（如，SGIAltix3000是2个Itanium2CPU）和本地内存组成，有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存，因此全系统的内存在物理上是分布的，每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的，为了减少非一致性访存对系统的影响，在硬件设计时应尽量降低远地内存访存延迟（如通过Cache一致性设计等），而操作系统也必须能感知硬件的拓扑结构，优化系统的访存。

目前IA64Linux所支持的NUMA架构服务器的物理拓扑描述是通过ACPI（AdvancedConfigurationandPowerInterface）实现的。ACPI是由Compaq、Intel、Microsoft、Phoenix和Toshiba联合制定的BIOS规范，它定义了一个非常广泛的配置和电源管理，目前该规范的版本已发展到2.0，3.0版本正在制定中，具体信息可以从http://www.acpi.info网站上获得。ACPI规范也已广泛应用于IA-32架构的至强服务器系统中。

Linux对NUMA系统的物理内存分布信息是从系统firmware的ACPI表中获得的，最重要的是SRAT（SystemResourceAffinityTable）和SLIT（SystemLocalityInformationTable）表，其中SRAT包含两个结构：

ProcessorLocalAPIC/SAPICAffinityStructure：记录某个CPU的信息；

MemoryAffinityStructure：记录内存的信息；
SLIT表则记录了各个结点之间的距离，在系统中由数组node_distance[]记录。

Linux采用Node、Zone和页三级结构来描述物理内存的，如图2所示
　
图2Linux中Node、Zone和页的关系
2.1结点

Linux用一个structpg_data_t结构来描述系统的内存，系统中每个结点都挂接在一个pgdat_list列表中，对UMA体系结构，则只有一个静态的pg_data_t结构contig_page_data。对NUMA系统来说则非常容易扩充，NUMA系统中一个结点可以对应Linux存储描述中的一个结点，具体描述见linux/mmzone.h。

typedefstructpglist_data{

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有