Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Особливості сучасної модернізації суперкомп’ютерів

Особливості сучасної модернізації суперкомп’ютерів. Інноваційні апаратні засоби

Про автора: Комухаєв Едуард Гнатович, кандидат технічних наук, старший науковий співробітник Інституту кібернетики ім. В.М. Глушкова НАН України (Київ), працює в Інституті більше 50 років.

Сфера наукових інтересів: логічні структури мікросхем, дослідження та розробка реконфігуровних обчислювальних систем.

Ефективне вирішення багатьох актуальних задач науки, техніки, економіки, екології, медицини, транспорту та оборони за допомогою суперкомп’ютерів вимагає значного приросту їх продуктивності, підвищення надійності, керованості та енергоефективності.

Орієнтовні оцінки необхідної швидкодії HPC для розв’язування задач наведені аналітиками компанії Intel, частина таких оцінок дана в таблиці 1.

Таблиця 1. Орієнтовна швидкодія для розв’язування складних задач

ЗадачаШвидкодія
Проектування автомобіля0,1 PFlops
Математичне моделювання зору людини0,1 PFlops
Моделювання аеродинаміки літальних апаратів1 PFlops
Моделювання лазерних систем10 PFlops
Моделювання динаміки молекул в задачах біології20 PFlops
Проектування літальних апаратів1 000 PFlops
Математичне моделювання в астрофізиці та космології10 000 PFlops
Моделювання турбулентності100 000 PFlops
Математичне моделювання в квантовій хімії1 000 000 PFlops

Досягнута швидкодія сучасних систем відображена в [1].

Підвищення продуктивності суперкомп’ютерів традиційним шляхом через подальше нарощування кількості процесорів загострює проблему енергозабезпечення та знижує надійність функціонування. Так, суперкомп’ютер IBM BlueGene/L з продуктивністю 300 ТФлопс, який має близько 200 тис. процесорів IBM Power PC, мав у середньому 4 відмови на добу. При цьому середній час відновлення роботи після збою складав близько 10 хвилин.

З ростом кількості процесорів у сучасних суперкомп’ютерах період роботи без збоїв значно зменшується, див. графіки в [2].

В процесах модернізації суперкомп’ютерів ключова роль належить впровадженню нових апаратних засобів. Серед них сьогодні статус основних отримали нові моделі процесорів та комутаторів, які вказують в рядках списків всесвітніх рейтингів Top500, Green500 та Top50 країн СНД.

В число перспективних апаратних засобів також входять твердотільні накопичувачі для заміни механічних дисків, реконфігуровані FPGA засоби, графічні прискорювачі та анонсовані компаніями Intel, Oracle-Sun високоінтегровані мікросхеми транзакційної пам’яті.

Нові реалізації апаратних засобів відрізняються вдосконаленням архітектури, алгоритмів та, часто, переходом на більш прогресивні технологічні норми 22-32 нм, що підвищує швидкодію, енергоефективність, знижує витрати та габарити.

Суперкомп’ютери нового списку Топ500, крім чотириядерних, використовують центральні процесори з 6-8-12-16 ядрами та спеціалізовані комутаційні засоби.

Статистика останнього 39-го списку свідчить про початок домінування комутаційних технологій Infiniband. Так, число систем з Infiniband вже перевищило число систем з Gigabit Ethernet, при цьому загальна продуктивність систем списку на Infiniband склала 31,5 ПФлопс проти 13,3 ПФлопс для систем з Gigabit Ethernet.

Особливо важливим при модернізації стає потенціал масштабованості, тобто можливість збільшення кількості вузлів без втрат швидкодії та надійності. Процесорну архітектуру SPARC (Scalable Processor Architecture), комутаційні структури Infiniband відносять до високомасштабовних. Нижче на мал. 1 та 2 проілюструємо масштабованість на прикладі двох варіантів лічильних фрагментів простих схем нарощування каналів синхронізації.

Обидві структури на мал. 1 та 2 містять вбудовані логічні схеми для відновлень робочого режиму після збою. При цьому структура на мал. 1 знижує швидкодію при підключенні нових чіпів 4017, а масштабована структура на мал. 2, згідно патенту US4993051, дозволяє значне нарощування каскадів без втрат швидкодії.

Мал. 1. Немасштабоване з’єднання лічильників

Мал. 2. Масштабовний лічильник

Захищені багатьма патентами високомасштабовані комутаційні структури компаній Mellanox, Voltaire, Cray, QLogic набагато складніші за наведені фрагменти. Створення нових поколінь комутаційних засобів вимагає дуже високої компетенції проектувальників. Тому компанія Intel, яка проектує нові масштабовані структури комутаційних засобів, не тільки придбала відповідні патенти компаній Cray та QLogic, але й організувала перехід компетентних у цих технологіях спеціалістів з цих компаній до себе, встановивши високу зарплату.

В таблиці 2 зібрані дані п’яти режимів Infiniband [3].

Таблиця 2. Пропускна здатність інтерфейсу Infiniband, raw / data

 SDRDDRQDRFDREDR
2,5 / 2 Гбіт/с5 / 4 Гбіт /с10 / 8 Гбіт /с14,0625 / 14 Гбіт /с25,78125 / 25 Гбіт /с
10 / 8 Гбіт /с20 / 16 Гбіт /с40 / 32 Гбіт /с56,25 / 56 Гбіт /с103,125 / 100 Гбіт /с
12х30 / 24 Гбіт /с60 / 48 Гбіт /с120 / 96 Гбіт /с168,75 / 168 Гбіт /с309,375 / 300 Гбіт /с

Infiniband використовує послідовну шину з двома напрямками. Базова швидкість – 2,5 Гбіт/с в кожному напрямку, застосовуються порти, що складаються з груп в 1х, 4х та 12х базових шин з двома напрямками (англ. lanes). Існують режими Single Data Rate (SDR)  - робота з базовою швидкістю, Double Data Rate (DDR) – бітова швидкість рівна двом базовим та Quad Data Rate (QDR) – відповідно, чотирьом. Режими SDR, DDR та QDR використовують кодування 8В/10В.

Базова швидкість 1х шини для режиму FDR складає 14,0625 Гбіт/с, а для EDR – 25,78125 Гбіт/с. Режими FDR та EDR використовують кодування 64/66В. На даний момент найбільшу популярність мають 4х QDR, FDR.

Основне призначення Infiniband – міжсерверні з’єднання, в тому числі і для організації RDMA (Remote Direct Memory Access).

В якості спеціалізованих засобів модернізації розвиваються прискорювачі обчислень різних типів. Основні типи прискорювачів розглянуті в [4]. Зокрема, суперкомп’ютер «Ломоносов», який представлений нижче у таблиці 3, використовує прискорювачі NVidia 2070, IBM PowerXCell 8i. Архітектура останнього представлена на мал. 3.

Мал. 3. 9-ти ядерний Cell

Дев’ятиядерний Cell-прискорювач є мікросхемою з 64-бітовим процесорним елементом PPE, з 8 спеціалізованими сопроцесорами SPE на базі SIMD-архітектури, зі спеціалізованою швидкісною шиною EIB, контролерами пам’яті та вводу-виводу.

PPE розподіляє задачі на SPE, контролює системні операції вводу-виводу, при цьому SPE виконують математичні операції.

В PowerXCell 8i значно прискорено обмін з системною пам’яттю за рахунок введення в кожний SPE до 256 Кб локальної пам’яті зі швидкісним доступом. З неї дані можуть переміщуватись в основну пам’ять та зворотно, навіть з випередженням, без припинення обчислювального процесу в SPE. Всі SPE та PPE мають прискорений доступ для основної пам’яті через контролер сумісної пам’яті та внутрішню магістраль.

Основним інструментом програмування Cell є IBM SDK for Multicore Acceleration, в складі якого компілятори, відладчики, бібліотеки BLAS, FFT, засоби генерації випадкових чисел тощо.

IBM Cell-прискорювач має чимало спільних рис з процесором IBM Power BQC, який застосовано в складі суперкомп’ютера Sequoia.

В таблиці 3 наведено дані про основні показники та апаратні засоби для восьми показових суперкомп’ютерів з останнього 39-го списку Top500, в яких основні сучасні засоби модернізації пройшли успішну перевірку на ефективність.

Таблиця 3. Вибрані рядки 39-го списку Top500.

Позиція рейтингу, країна, компаніяНазва суперкомп'ютераТипи процесорівТипи комутаторівРеальна продуктивність, ТФлопсСпоживана потужність, кВт
1. США
IBM
Sequoia - BlueGene/QPower BQC 16C 1.6 GHzспеціалізований інтерконект163247890
2. Японія
Fujitsu
K-ComputerSPARC64 VIIIfx 2.0GHzTofu interconnect1051012660
4. Німеччина
IBM
SuperMUC
iDataPlex DX360M4
Xeon E5-2680 8C 2.70GHzInfiniband FDR28973423
6. США
Cray
Jaguar-Cray XK6Opteron 6274 16C 2.2 GHz, NVIDIA 2090Cray Gemini Interconnect19415142
11. США
SGI
Pleiades
SGI Altix ICE X/8200EX/8400EX
Xeon 54xx 3.0/5570/5670/E5-2670 2.93/2.6/3.06/3.0 GhzInfiniband QDR/FDR12433987
22. Росія
T-Platforms
Ломоносов
T-Platforms T-Blade2/1.1
Xeon X5570/5670/E5630, NVIDIA 2070, PowerXCell 8iInfiniband QDR9022800
62. США
Appro
Gordon
Xtreme-X GreenBlade GB512X
Xeon E5-2670 8C 2,6 GHzInfiniband QDR285358
185. Росія
RSC SKIF
СКІФ АврораXeon X5680 6C 2,53 GHzInfiniband QDR100-

Далі доповнимо дані про ключові особливості восьми виділених систем.

Першу позицію посідає Sequoia з найвищою продуктивністю та високою енергоефективністю. Очолює серію з 20-ти систем 39-го списку з архітектурою IBM BlueGene/Q, використовує 17-ядерні процесори Power A2 (одне ядро служить для системних цілей). Особливості спеціалізованої комунікаційної системи не розголошуються. Графічні процесори не задіяні.

На другій позиції K Computer, який очолював попередній список Top500, використовує 16-ядерні центральні процесори SPARC64 RISC типу. Міжз’єднання підтримує апаратно-бар’єрну синхронізацію вузлів, забезпечуючи високу масштабованість та відмовостійкість. Графічні процесори не задіяні.

На четвертій позиції – найбільш потужна європейська система SuperMUC на процесорах Intel Xeon E5-2680 та новітніх комутаторах Infiniband FDR. Використовується нова технологія IBM охолодження підігрітою водою. Загалом, в 39-списку процесори Xeon E5 застосовані для 44 систем.

На шостій позиції – Jaguar-Cray XK6 на процесорах Opteron 6274 з 16 ядрами, графічними процесорами NVidia 2090. Використовується власна комутаційна масштабована мережа Cray Gemini. Після повної модернізації будуть встановлені стійки для нових процесорів Opteron Interlagos та графічних процесорів NVidia Kepler. Прогнозується максимальна продуктивність системи на рівні 10-20 ПФлопс.

На позиції 11 – суперкомп’ютер Pleiades (NASA) з багатоядерними процесорами Intel різних моделей, включаючи Intel Xeon E5-2670. Використано технологію Infiniband QDR/FDR. Відмічають вирішальний внесок Xeon E5 при досягненні продуктивності 1243 ТФлопс.

На позиції 22 – російський «Ломоносов», який незабаром повинен досягти продуктивності рівня 10-15 ПФлопс. Серед різних процесорів виділимо значний внесок Xeon E5-2670. У квітневому списку Top50 без цих процесорів «Ломоносов» мав значно нижчу продуктивність.

62-гу позицію посідає Gordon з найшвидшою системою збереження даних на базі 1024 твердотільних накопичувачів Intel 710. Архітектура – дворівневий кластер з використанням Xeon E5 та Infiniband QDR. Вже замовлено 16 екземплярів Gordon.

185-ту позицію займає СКІФ Аврора з власними комунікаційними пристроями на FPGA із застосуванням SSD. Має ефективну рідинну систему охолодження [5]. В останньому списку Green500 вона зайняла 158-е місце з енергоефективністю 349,78 МФлопс/Вт. Це найкращий показник для суперкомп’ютерів Росії.

Висновки:

1. Інноваційні типи процесорів та комутаторів, застосовані при модернізації, традиційно вказують поряд з показниками продуктивності та енерговитрат в рядку рейтингів Top500, Green500 та Top50.

2. Новий 39-й список Топ500 очолив суперкомп’ютер з реальною продуктивністю 16324 ТФлопс та архітектурою IBM BlueGene/Q. 10 суперкомп’ютерів цієї архітектури тепер очолюють список Green500 з найкращими показниками енергоефективності. Вперше Європа представлена трьома високопродуктивними суперкомп’ютерами в першій десятці Top500. Відмітимо також, що багато суперкомп’ютерів останнього списку за минулий рік не підвищили показники продуктивності.

3. В останньому списку Топ500 ефективним запровадженням інноваційних засобів виділяються наступні системи:

  • Sequoia з 17-ядерними процесорами Power A2, спеціалізованим міжз’єднанням, IBM технологією охолодження підігрітою водою.
  • K Computer з 16-ядерними процесорами SPARC 64, спеціалізованим міжз’єднанням Tofu, що забезпечує високу масштабованість та відмовостійкість системи.
  • SuperMUC з повним переходом на процесори Intel Xeon E5, комутатори Infiniband FDR та технології IBM охолодження водою.
  • Jaguar-Cray XK6 з новими 16-ядерними процесорами AMD Opteron, міжз’єднанням Cray Gemini, графічними прискорювачами NVidia.
  • Pleiades з успішним досвідом переходу на процесори Intel Xeon E5, міжз’єднанням Infiniband QDR/FDR.
  • «Ломоносов» з досвідом використання кількох поколінь процесорів Intel Xeon, включаючи серію E5, прискорювачів NVidia, IBM PowerXCell, власних blade-конструкцій. 
  • Gordon з досвідом переходу на твердотільні накопичувачі та процесори Intel Xeon E5. Вже замовлено 16 екземплярів Gordon.
  • СКІФ-Аврора з власними комутаторами на FPGA, власною системою водяного охолодження.

4. Ефективними інноваційними масово доступними засобами модернізації стали процесори Intel Xeon E5, комутаційні чіпи Infiniband FDR, графічні прискорювачі, прискорювачі IBM Cell, твердотільні накопичувачі.

5. Інноваційні засоби модернізації стають все більш складними, потребують високої компетенції спеціалістів, рішень підвищеного потенціалу масштабування. Нещодавно компанія Intel придбала патенти на високомасштабовані комутатори Cray Gemini, QLogic Infiniband, при цьому обумовила перехід до себе компетентних у цих технологіях спеціалістів з компаній Cray та QLogic, встановивши для них високу зарплату.

6. Серед нещодавно анонсованих перспективних засобів виділимо: прискорювачі Intel Xeon Phi, NVidia Kepler, японські гібридні твердотільні накопичувачі на флеш та ReRAM пам’яті, Infiniband Mellanox п’ятого покоління, 50-ти ядерний процесор Intel MIC з інтегрованими вузлами Infiniband.

7. Зростаючу тенденцію переходу до серійного виробництва суперкомп’ютерів ілюструють 20 систем з архітектурою IBM BlueGene/Q, замовлення 16 систем Gordon з твердотільними накопичувачами, серії китайських систем.

Список літератури:

1. 39-й список Топ500: http://top500.org
2. Проблемы обеспечения роста производительности отечественных суперЭВМ в период до 2020 года/ В.Б. Бетелин, А.Г. Кушниренко, Г.О. Райко // Информационные технологии и вычислительные системы, 3 / 2010.
3. Межсоединения для масштабируемых ЦОД // Гилад Шейнер // Сети / Network Word, 3, 2012.
4. Розвиток прискорювачів для спеціалізованих обчислень  // Якуба А.О., Комухаєв Е.Г., Рябчун С.Г. // Математичні машини та системи №2, 2010, с. 10-21.
5. Суперкомпьютер «СКИФ» ряда 4 / С.М. Абрамов, В.Ф. Заднепровский, Е.П. Лилитко // Информационные технологии и вычислительные системы, 1, 2012.

Теги: HPC, Infiniband, Intel, Top500, багатоядерність, гібридизація, енергоефективність, масштабованість, петафлопс, приріст продуктивності

Матеріали за темою:

Коментарі