Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Економічна криза дісталася суперкомп’ютерного ринку

Вперше думка про те, що криза світової економіки нарешті докотилася до індустрії високопродуктивних обчислень (HPC), прозвучала на початку липня цього року під час обговорення експертами підсумків суперкомп'ютерної виставки-форуму ISC'2013, що відбулася в німецькому Лейпцигу. Цю позицію побічно підтверджували спостереження, які можна було зробити як при огляді експозиції, так і при аналізі останньої редакції рейтингу найпотужніших обчислювачів планети Top500.

Нова редакція рейтингу найпотужніших комп'ютерів СНД Top50 (вересень 2013) теж змушує задуматися про те, що Росія йде шляхом стагнації навіть "з випередженням графіку".

Спробуємо розглянути, в чому ж полягає криза суперкомп’ютерного ринку та як галузь їй протистоїть.

Загальний тренд

Зрозуміло, що технології удосконалюються безперервно, однак ринок в якомусь сенсі живе дискретно — від однієї авторитетної виставки-форуму, де оголошується новий Top500, до іншої. Таких виставок у світі всього дві. Перша, наймасштабніша, проходить в листопаді в США, друга — в червні у Німеччині. Технологічні компанії частину своїх розробок представляють протягом усього року, але найважливіші анонси проходять раз на шість місяців — саме тут.

В поточному році німецький форум вперше за багато років покинув західнонімецький Гамбург та перемістився в східнонімецький Лейпциг. За іронією долі причиною переїзду, запланованого ще декілька років тому, стала неможливість вмістити на старому майданчику всіх бажаючих, яких щороку ставало все більше. Проте в реальності неозброєним оком було видно, що ISC'2013 прийняла помітно менше експонентів, ніж зазвичай.

Як зазначає директор технологічного сектору високопродуктивних обчислень Intel в регіоні EMEA Андрій Сьомін, на виставці були відсутні традиційні стенди багатьох великих гравців ринку, таких як AMD, SGI, Microsoft.

Не приїхала жодна американська лабораторія (Лос-Аламос, Окридж тощо). На форумі не відбулося кілька важливих заздалегідь запланованих сесій та доповідей. Все це пан Сьомін схильний пов'язувати із загальносвітовим скороченням інвестицій в HPC, що особливо помітне за зменшенням кількості великих проектів в США (для цієї країни завжди були характерні дуже серйозні внески).

На ринку зараз вже схильні сумніватися в тому, що подолання психологічно важливого рубежу продуктивності суперкомп'ютера в 1 екзафлопс відбудеться в 2018-2019 рр., як це передбачалося раніше відповідно до закону Мура та динаміки розвитку галузі.

Явним винятком на загальному тлі виступає Китай (в якому криза відчувається не настільки сильно). На переконання пана Сьоміна, нова система Піднебесної "Чумацький шлях 2" (Tianhe-2), яка розташувалася на першому місці в Top500 (пікова та реальна продуктивність — 54,9 та 33,9 Пфлопс відповідно), — це не тільки інженерне, але й фінансове диво. Витрачена на її створення сума не розголошується, проте комп'ютери з перших рядків рейтингу завжди коштують не менше 100 млн. доларів.

За словами пана Сьоміна, в Intel поширена думка про те, що в момент кризи найправильніше — це інвестувати. За періодами рецесій обов'язково йдуть злети (великі системи будуть потрібні завжди), проте у момент стагнації все стає дешевше, навіть люди. Так що китайці зараз поводяться дуже далекоглядно, але в цьому їх, схоже, мало хто підтримує. І Росія, на жаль, не виняток.

Справи в Росії

Наприкінці вересня побачила світ нова редакція рейтингу Top50, за результатами якої вже вдруге за останні півтора року графік приросту сумарної продуктивності комп'ютерів увійшов практично в горизонтальну фазу.

На ділі це означає, що серед п'ятдесяти найпотужніших обчислювачів СНД (а по суті Росії) майже немає новачків — за весь 2013-й список поповнився лише двома кластерами.

У рамках рейтингу минулого року нових установок та модернізацій було більше півтора десятка (третина списку). Надія на те, що зараз ми спостерігаємо тимчасове затишшя перед шквалом оголошень про інсталяції, досить примарна, та чергова редакція Top500, яку оголосять наприкінці листопада, напевно це підтвердить.

На продовження теми R&D варто відзначити, що в Росії проблеми ринку HPC зараз явно пов'язані з кризою попиту, а не пропозиції. По частині технологій як таких справи йдуть начебто дуже непогано.

Хоча ми не побачили в Лейпцигу стенду компанії "Т-Платформи", але там вперше свій закінчений продукт представила російська компанія TTG Laboratory, заснована в 2010 р. у так званому науковому паркінгу МДУ ім. М. В. Ломоносова.

Молодий колектив займається динамічною оптимізацією додатків для гібридних систем (з використанням графічних процесорів — GPU). Їх розробка Apptimizer для архітектури Nvidia Kepler покликана забезпечити 20% підвищення швидкості роботи додатків. За словами генерального директора компанії Максима Кривова, перенесенням додатків на GPU та їх оптимізацією в світі займаються багато компаній, але ніхто цього не робить повною мірою автоматично.

TTG Laboratory поки що уклала тільки одну угоду про запровадження їхнього продукту, та й то з власною батьківською структурою — Московським університетом (на кластері "Ломоносов"). А ось що стосується компанії РСК, то її представлені в Лейпцигу розробки вже використовуються реальними замовниками, причому за рівнем виконання вони в деяких аспектах є дуже передовими.

Конкуренція гібридних рішень

Одне з головних вражень, що залишилися у Андрія Сьоміна від німецької виставки, полягає в тому, що переважна більшість доповідей, що пролунали на ній, тим чи іншим чином стосувалася енергоефективності.

Вихід даної проблеми на передній план він також багато в чому пов'язує з кризовим скороченням бюджетів. Замовники хочуть отримувати більшу щільність обчислень за менші гроші.

Одним з популярних способів підвищення продуктивності суперкомп'ютерів при помірному зростанні їх енергоспоживання сьогодні є використання так званих гібридних конфігурацій.

До недавнього часу найбільш потужним гравцем на цьому ринку була компанія Nvidia, чиї рішення поєднують в собі стандартні процесори класичної архітектури x86 та графічні прискорювачі.

Наприкінці минулого року в конкурентну боротьбу нарешті вступила Intel зі своїми сопроцесорами Xeon Phi. Варто зазначити, що з семи перших інсталяцій з використанням новинок Intel п'ять були розташовані на території США, а дві — в ​​Росії. Їх розробкою та установкою займалася компанія РСК.

Для одного з замовників — Міжвідомчого суперкомп'ютерного центру (МСЦ) РАН — нею навіть була створена перша черга (на 523,8 пікових терафлопс) системи, яка в перспективі може бути розширена до 10 Пфлопс.

У РСК запевняють, що в будь-який момент готові такий кластер розгорнути, справа за замовником. Однак тут ми знову ж повертаємося до теми кризи попиту. Незважаючи на різні заяви керівництва МСЦ (аж до демонстрації ступеневого графіку нарощування потужності), по закінченні року ніяких реальних зрушень тут не видно.

Що стосується конкуренції на ринку гібридних рішень, то на підставі червневої редакції Top500 можна помітити, що за попередні півроку кількість систем з графічними прискорювачами скоротилася з 47 до 39, але при цьому число суперкомп'ютерів з сопроцесорами виросло не настільки значно — з 7 до 11.

В Nvidia кількісний спад коментують спокійно. Директор з обчислювальних рішень Tesla Суміт Гупта вказує на те, що рейтинг покинуло 14 систем на базі технологій попереднього покоління (Fermi), але зате у списку вже присутні 8 більш потужних обчислювачів на базі новітніх GPU Kepler. Що характерно, в результаті цих пертурбацій загальна пікова продуктивність GPU-кластерів залишилася на колишньому рівні — 54,4 Пфлопс.

Пан Гупта допускає, що кількість суперкомп'ютерів на Intel Xeon Phi буде зростати, проте розраховує на те, що бізнес Nvidia також прогресуватиме за рахунок загального збільшення інтересу користувачів до гетерогенності (гібридності).

Суміт Гупта посилається на дані IDC, згідно з якими зараз 78,4% користувачів HPC планують включити прискорювачі/сопроцесори в свої обчислювальні центри при наступній покупці обладнання; всього два роки тому таких було 29%. Так чи інакше, Nvidia в найближчі кілька місяців чекає появи на ринку безлічі нових систем на базі Kepler.

Оптимізм пана Гупти щодо перспектив гібридності не поділяють в Intel. На думку пана Сьоміна, користувачі вже відчули те, про що компанія попереджала ще в 2006-2007 рр.: гібридність — це складно (в першу чергу з точки зору адекватної адаптації додатків).

Андрій Сьомін стверджує, що в Intel гетерогенність сприймають як явище тимчасове та вважають, що в майбутньому суперкомп’ютінг стане розвиватися явно не в цьому напрямку. За його спостереженнями, багато розробників комерційного ПЗ зараз не поспішають програмувати ні під прискорювачі, ні під сопроцесори.

Їх можна зрозуміти: розробка пакету — це 4-5 років інвестицій. Ринок чекає на гомогенні розробки наступного покоління, та, як можна зрозуміти зі слів пана Сьоміна, саме їх він з часом і отримає, причому у дуже короткостроковій перспективі.

Рідинне охолодження

Відведення тепла від суперкомп'ютера за рахунок циркулюючої рідини замість повітря також є дуже вагомим внеском у боротьбу за "антикризову" енергоефективність. На виставці в Лейпцигу воно остаточно перейшло з розряду екзотики у категорію мейнстриму (поки, втім, на рівні ідей та прототипів; реальних установок небагато).

Переваги рідкого холодоагенту перед газоподібним, напевно, пояснювати непотрібно. За оприлюдненими в червні даними РСК, з 2009 р. її замовники вже сумарно заощадили за рахунок рідинного охолодження 8,5 млн. кВт•год.

Так чи інакше, на ISC'2013 рідинне охолодження було всюди, хоча і в дуже різних за своєю суттю проектах. Як пояснює Андрій Сьомін, найпростіше обчислювальну стійку занурити в трансформаторне (що не проводить електрику) масло.

Базові рішення може робити практично будь-хто, але до впровадження справа зазвичай не доходить, чому є низка пояснень.

По-перше, у масляних конфігурацій дуже низька обчислювальна щільність на одиницю площі машинного залу. Неможна зробити стовп масла висотою в два метри — стійку неможливо буде обслуговувати (доведеться пірнати). Відповідно реальні системи можуть бути або вертикально невисокими, або й зовсім горизонтальними.

По-друге, знімати/виймати плати з масла дуже важко.

По-третє, наприклад, Intel не дає гарантії на свої плати у разі їх занурення (деякі інші постачальники дають, але лише на певні марки). Андрій Сьомін пояснює, що в компанії поки не вивчили до кінця дане питання, але вже дійшли висновку, що оптичні кабелі в олії використовувати не варто — частина з них роз'їдається, частина стає крихкими. Можна використовувати мідь, але і вона втрачає свої властивості через півроку-рік експлуатації.

Другий підхід до рідинного охолодження пов'язаний з обробленою водою та історично прийшов з геймерскої індустрії. У ньому холодоагент підводиться до гарячих компонентів за допомогою, умовно, радіаторних трубочок та накладок, так званих  "бобишок". Ця технологія в якомусь сенсі є половинчастою, бо "бобишки" все тепло відвести не можуть та приблизно 10% компонентів доводиться охолоджувати повітрям, а це означає дублювання системи охолодження та втрати в енергоефективності.

З інженерної точки зору у такого підходу загалом невеликі виробничі витрати, однак "бобишки" потребують багато ручної пайки — з'єднання трубочок важко механізувати. У великих проектах це означає вельми тривалі терміни виконання контрактів. До того ж, чим більше з’єднань присутні в системі, тим нижче її надійність — під час транспортування на майданчик замовника можуть виникати мікротріщини, які згодом стануть протікати.

Третій підхід полягає в повному відведенні тепла за допомогою охолоджуючої пластини, яка цілком закриває сервер (саме його використовує РСК). Проблемним фактором тут можна вважати значну вагу (за винятком вертикальних масляних рішень, такі системи найважчі через великий вміст металу; не в кожному машинному залі витримає підлога).

У боротьбі з ним зараз використовуються дві основні методики. Найбільш яскравим прихильником першої з них виступає компанія Eurotech, яка позбавляється від надлишків металу шляхом складної додаткової механічної обробки плат, яка здорожує виробництво.

Другу методику застосовує РСК, повністю відмовившись від поняття шасі в серверній стійці. Справа в тому, що саме шасі складають левову частку маси, в той час як в даному випадку ніякої необхідності в них немає — структурної стійкості стійці додає власне охолоджуюча плата.

Складність для виробника в повністю рідинному охолодженні складає і непроста точка входу на ринок. Грубо кажучи, дана технологія представляє собою єдину систему відведення тепла, для створення якої використовується суперкомп’ютінг (надскладне моделювання, термодинамічний розрахунок тощо), плюс потрібні дуже вузькоспеціалізовані експерти.

Але при цьому повністю рідинне охолодження дозволяє створювати найбільш обчислювально щільні та енергоефективні рішення. Так, в Лейпцигу РСК оголосила про те, що продуктивність її суперкомп'ютерної архітектури "Торнадо" з високоефективним рідинним охолодженням досягла рівня понад 200 Тфлопс на стандартну стійку (42 юніта, 80х80 см в основі, висота 2 м), що, за словами компанії, стало абсолютним світовим рекордом для архітектури х86.

Варто відзначити, що підхід РСК має ще одну вкрай важливу особливість: на відміну від тієї ж компанії Eurotech, її рішення створене для стандартних масово доступних на ринку плат. Як підтверджує пан Сьомін, у світі жоден інший постачальник повністю рідинного охолодження такого сьогодні запропонувати не може.

В очікуванні нового Top500

На завершення даного матеріалу варто згадати ще один умовно кризовий аспект галузі HPC, який до економіки, правда, навряд чи має якесь відношення.

Справа в тому, що поточна редакція Top500, схоже, стане останньою версією рейтингу в його нинішньому вигляді. Куратори Top500 зробили заяву про те, що стандартний тест Linpack, на підставі якого досі проводилася оцінка "реальної" продуктивності суперкомп'ютерів, потребує заміни.

Вельми цікаво, що модернізацією тесту вирішили зайнятися тільки зараз, хоча критиці він піддається досить давно. В першу чергу за те, що показники Linpack найчастіше не відображають справжню працездатність кластера, але при цьому виробники обчислювачів спеціально оптимізують їх (а то і створюють спочатку) під проходження тесту — загалом, займаються профанацією.

За коментарями адміністрації Top500, в майбутньому ранжування систем відбуватиметься на підставі деякого нового тесту "високопродуктивних сполучених градієнтів" (High Performance Conjugate Gradient).

Яким саме чином це вплине на розстановку сил на ринку, дізнаємося зовсім скоро — в листопаді. До того ж як мінімум в найближчій редакції рейтингу дані за Linpack також будуть присутні; можна буде порівняти показники. Але в будь-якому разі галузь явно очікує певний струс, який, будемо сподіватися, допоможе наблизити її вихід з кризи.

За матеріалами pcweek.ru.

Теги: GPU, HPC, Intel, ISC, Linpack, NVidia, Top50, Top500, високопродуктивні обчислення, графічні прискорювачі, екзафлопс, енергоефективність, охолодження

Матеріали за темою:

Коментарі