Описание

В специализированном 52-юнитовом шасси A-Class размещается 256 вычислительных узлов с пиковой производительностью 4 Петафлопс и встроена вся сетевая инфраструктура.
Каждый вычислительный узел содержит процессор Intel® Xeon® Scalable и два ускорителя NVIDIA Tesla™. Производительность суперкомпьютера масштабируется до 786 петафлопс за счёт объединения 192 шасси. Для поддержки подобной масштабируемости используются две независимые сети InfiniBand, предназначенные для обмена MPI-сообщениями и для передачи данных.
Система A-Class охлаждается горячей водой и имеет повышенную отказоустойчивость, необходимую для работы суперкомпьютеров многопетафлопсного диапазона.
Применение горячей воды в качестве теплоносителя позволяет внедрить круглогодичный режим «свободного охлаждения» системы, исключив расходы на закупку компрессоров и холодильных машин. В зимнее время заказчики могут повторно использовать уже нагретую воду для обогрева помещений.

В A-Class реализованы аппаратные и программные средства повышения отказоустойчивости суперкомпьютера. Система использует два независимых модуля управления с выделенными фабриками Ethernet. 8 независимых групп блоков питания поддерживают горячую замену индивидуальных блоков питания и режим резервирования N+1 в рамках каждой группы, позволяя продолжить работу узлов даже в случае потери одного блока питания в каждой группе.
Дополнительная надежность A-Class обеспечивается мониторингом на уровнях шасси, секции и узла. Система охлаждения оснащена датчиками протечек, влажности и давления жидкости. В случае аварийной ситуации система управления автоматически отключает подачу воды и электропитания к шасси.

Шасси системы поддерживает различные конфигурации вычислительных узлов.


ля управления и мониторинга системы A-Class Т-Платформы предлагают собственный программный комплекс ClustrX HPC Pack, который включает в себя следующие компоненты:

система управления кластером
модуль управления пользователями
различные менеджеры ресурсов и системы мониторинга на выбор клиента
средства управления оборудованием
ClustrX Safe — система автоматического отключения оборудования в чрезвычайных ситуациях (САОО)
ClustrX HPC Pack обладает широким функционалом:

поддержка распределённых сервисных узлов
поддержка виртуальных машин;
возможность работать с разными ОС в рамках одного кластера
поддержка локальной и бездисковой загрузки узлов с помощью подключений Ethernet, InfiniBand и iSCSI
поддержка различных файловых систем и баз данных
гибко настраиваемый виджет-ориентированный интерфейс оператора позволяет представлять нужную информацию о работе системы в удобном и понятном виде
Также возможно применение других программных комплексов для управления и мониторинга суперкомпьютеров на базе системы A-Class.

Специализированное стоечное шасси с воздушно-жидкостным охлаждением,интегрированным высокоскоростным сигнальным и силовым бэкплейном
Ширина 1500 мм × глубина 800 мм × высота 2400 мм, (~52U)
Температура воды на входе: До 45 °C
Температура воды на выходе: более 50 °C при температуре воды на входе 45 °C
Блоки питания охлаждаются воздухом через встроенный в шасси теплообменник, подключённый к системе водяного охлаждения A-Class
2 независимых управляющих модуля, каждый с сервером и коммутаторамиуправляющих сетей InfiniBand и Ethernet верхнего уровня
8 вычислительных секций, в каждой расположены коммутаторы сетей FDR InfiniBand и Ethernet, а также 32 вычислительных узла, поддерживающих установку ускорителей
Встроенная коммутация двух независимых сетей FDR InfiniBand (двухуровневая для сети доступа к СХД; различные однородные топологии фабрики обмена MPI-трафиком — torus, flattened butterfly, hypercube)
8 × 12 отсеков для высокоэффективных блоков питания (3 кВт, эффективность до 97,2%) с поддержкой горячей замены, электропитание каждой секции обеспечивается с резервированием уровня N+1
48 В постоянного тока с функцией измерения потребления
Система электропитания обеспечивает совокупную мощность до 256 кВтс учётом резервирования
Входящее напряжение — 380 В трёхфазного переменного тока
Конфигурация вычислительного узла
1 × Intel® Xeon® Scalable, TDP до 125 Вт
до 384 ГБ DDR4-2666 VLP RDIMM, 6 модулей объёмом 64 ГБ
SSD (опция)
2 фабрики Ethernet 1000Base-KX (Intel I210-IS)
2 фабрики Infiniband FDR (Mellanox Connect-IB)
2 x NVidia Tesla SXM2 NVLINK (P100 ‘Pascal’ / V100 ’Volta’) TDP 300 Вт
Основные характеристики системы управления
2 независимых модуля управления системой с поддержкой горячей замены
Однопроцессорный сервер управления; Коммутатор верхнего уровня сети Ethernet; Коммутатор верхнего уровня сети FDR InfiniBand для доступа к СХД
Охлаждение горячей водой
Конфигурация сервера управления: 1 × Intel E5-1600; до 32 ГБ DDR3 Reg. ECC, 4 модуля; 2 × HDD 2.5”;2 × 10 GbE SFP+; 2 × FDR InfiniBand (QSFP и бэкплейн)
2 фабрики Infiniband FDR (Mellanox Connect-IB)
2 x NVidia Tesla SXM2 NVLINK (P100 ‘Pascal’ / V100 ’Volta’) TDP 300 Вт