Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Intel представила прискорювачі Xeon Phi

12 листопада 2012

Корпорація Intel аноносувала співпроцесори Xeon Phi 3100 та 5110P, які, як стверджується, прискорять процес інновацій у галузі високопродуктивних обчислень.

Intel Xeon Phi

Карти виконані на архітектурі Many Integrated Cores (MIC), яка передбачає об'єднання традиційних х86-сумісних ядер зі спеціалізованими ядрами для підвищення ефективності паралельних обчислень. При виробництві застосовувалась 22-нанометрова технологія та методика Tri-Gate (транзистори об’ємної структури).

Прискорювач Xeon Phi 3100 має продуктивність більше 1 ТФлопс подвійної точності. Підтримується до 6 ГБ пам’яті з пропускною здатністю до 240 Гбіт/с. Максимальне значення споживаної енергії – до 300 Вт.

Модель Xeon Phi 5110P забезпечує продуктивність у 1,01 ТФлопс подвійної точності при TDP 225 Вт. Максимальний обсяг пам’яті формату GDDR5 складає 8 ГБ, пропускна здатність – 320 Гбіт/с.

Передбачається, що Xeon Phi доповнять існуючі серверні чипи сімейства Xeon E5-2600/4600.

Масові поставки прискорювачів Xeon Phi 5110Р почнуться у кінці січня 2013 р., ціна складе $2649. Карти Xeon Phi 3100 будуть доступні у першій половині 2013 року за ціною «не менше $2000».

Корпорація Intel вийшла на сцену багатоядерних процесорів з дебютною програмою «Knights Corner», першим прискорювачем Xeon Phi.

Новий продукт дає трохи більше терафлопса подвійної точності, започатковуючи нову еру у битві між Intel, NVidia та AMD. Усі ці компанії встигли сьогодні анонсувати свої найкращі прискорювачі на конференції SC’12 у Солт Лейк Сіті.

Процесори Knights Corner виготовлені на 22-нм технології та будуть доступні у вигляді двох продуктів: 3120 A та 5110P. Обидві карти мають інтерфейс PCIe, на них розміщений один процесор та кілька гігабайт пам’яті GDDR5.

Продуктивність обох карт дуже схожа. Прискорювач 3120A дає 1,003 ТФлопс подвійної точності, маючи 60 ядер (частота 1,053 ГГц), а 5110P – трохи більше, 1,011 ТФлопс, але маючи 57 ядер з більшою частотою (1,1 ГГц).

Велика різниця – у пам’яті: 5110P містить 8ГБ з пропускною здатністю 320 Гбіт/с, а 3120А – лише 6 ГБ та 240 Гбіт/с пропускної здатності.

Різниця у розмірах та швидкості роботи пам’яті визначає різницю у цільовому призначенні. 3120A призначений для інтенсивних розрахунків, коли більшість даних зберігається у пам’яті карти або, принаймні, у кеші. Такі застосування, наприклад, як фінансовий аналіз, науки про життя, та інші алгоритми, які спираються на роботу з лінійною алгеброю.

Для додатків, які інтенсивно працюють з даними або потоками даних, Intel пропонує прискорювач 5110P. Його більший обсяг пам’яті та її пропускна здатність краще підходять для алгоритмів сейсмічного моделювання, рендерингу та перетворення цифрового контенту.

Карти також мають значну різницю у споживанні: 5110Р споживає до 225 Вт, а 3120А – до 300 Вт, що наближається до межі можливостей розміщення карт у щільному середовищі.

Тим не менш, Intel вважає другу карту топовою для ситуацій, коли необхідна максимальна продуктивність у кількості операцій за одиницю вартості. Рекомендована ціна 3120А буде меншою за $2000, у той час як для 5110Р – на рівні $2649.

Два продукти мають різні режими охолодження. Літера «Р» у назві 5110P означає пасивне охолодження, що є більш зручним варіантом для серверів, особливо зі щільною упаковкою, що є дуже модним трендом у HPC.

Прискорювач 3120А охолоджується вентилятором, тому він більше підходить до менш щільних інсталяцій. Intel з часом збирається запропонувати пристрій серії 3100 з пасивним охолодженням.

Прискорювачі 5110Р вже продаються, а на загальному ринку їх можна очікувати після 28 січня 2013 року. Масовий випуск 3120А заплановано на першу половину 2013 року.

Крім двох основних карт, Intel також випускає тестову версію під назвою SE10P для задоволення потреб нетерплячих користувачів, наприклад, Головного обчислювального центру Техасу (TACC).

У TACC встановлено суперкомп’ютер Stampede з плановою продуктивністю 10 ТФлопс. Він вже працює, але не на повну потужність. В останній редакції списку Top500 він має результат 4 ПФлопс пікової та 2,6 реальної продуктивності.

За даними Intel, SE10P має аналогічний набір властивостей, як і 5110P, але споживає 300 Вт та має приблизно на 10% більшу пропускну здатність пам’яті. Цей пристрій не буде випускатись серійно, тому, схоже, решту продуктивності Stampede забезпечать аналоги 5110P або більш нові розробки Intel.

Оскільки SE10P була доступна деякий час, багато тестів, на які посилається Intel для порівняння (включаючи ті, які ми тут згадаємо), отримані для SE10P.

При запуску Linpack Intel отримав результат у 803 ГФлопс, на DGEMM (множення матриць з подвійною точністю) – 883 ГФлопс, SGEMM (множення матриць з одинарною точністю) – 1860 ГФлопс.

Пропускна здатність SE10P вимірювалась утилітою STREAM, яка показала результат 181 Гбіт/с без ECC та 175 Гбіт/с з увімкненим ЕСС. Всі ці результати вдвічі-втричі кращі, ніж результати двопроцесорного сервера з двома Xeon E5-2670.

Насправді, Intel повідомляє покупцям, що паралельні додатки, які можуть отримати перевагу від векторних можливостей Xeon Phi, в середньому покажуть прискорення у 2-3 рази, якщо їх запускати на прискорювачі Knights Corner.

Наприклад, виробник стверджує про прискорення у 2,53 рази при обробці сейсмічних даних, 2,52 – для молекулярної динаміки, 2,27 для квантової хромодинаміки, 1,7 – для методу кінцевих елементів та 1,88 для трасування променів.

Загалом, однак, Intel обіцяє прискорення у 2-3 рази лише для програм, які піддаються розпаралелюванню та векторизації. За словами Джо Керлі, директора з маркетингу Intel, споживачі матимуть мотивацію для пошуку способів покращення продуктивності своїх програм.

Компанія Intel має певну проблему з рекламою нових продуктів. Вона не може просувати Xeon Phi за рахунок основних процесорів серії Xeon.

Ідея полягає у прискоренні додатків або їх частин, які не піддаються Xeon-нам. Але компанія хоче продати вам обидва свої продукти – один для максимально швидкого виконання послідовних кодів, інший – для паралельних, векторних алгоритмів. Це не сильно відрізняється від способів позиціонування продуктів NVidia по відношенню до звичайних CPU.

NVidia у свою чергу більш агресивно вказує на велике збільшення продуктивності у порівнянні з платформами на одних CPU, у п’ять, 30 разів, а то й ще більше.

Виробник заявляє, що нові Tesla K20x у сім разів швидші за Sandy Bridge Xeon. Незважаючи на те, що, на перший погляд, GPU утричі швидше за Knights Corner, насправді NVidia порівнює GPU до CPU, а Intel влаштовує змагання прискорювача та двох процесорів Xeon.

Тим не менш, Kepler перемагає Knights Corner за значенням чистої продуктивності та продуктивності на один ват: 1,31 ТФлопс (K20x) при 235 Вт проти 1,011 ТФлопс за 225 Вт (5110Р).

Для одинарної точності перевага продуктів NVidia над прискорювачем Intel ще більш відчутна, оскільки Kepler мають втричі більшу продуктивність в одинарній проти подвійної точності, а Knights Corner – лише вдвічі більшу.

З іншого боку, Intel 5110P може похвалитись найбільшим обсягом та пропускною здатністю пам’яті з усіх прискорювачів: 8 Гб та 320 Гбіт/с проти 6 Гб та 250 Гбіт/с у K20x. Для додатків, які обробляють величезні масиви даних, особливо потокових, це буде вирішальною перевагою.

Але Intel вірить, що найефективнішою зброєю проти GPU є програмне оточення. Воно дозволяє розробникам використовувати звичайні паралельні компілятори, бібліотеки та засоби Intel, які вони звикли використовувати при розробці кодів для Xeon. Інші виробники вже включили підтримку Xeon Phi у свої продукти (CAPS enterprise, PGI, Rogue Wave, Allinea, NAG тощо).

Intel також не втомлюється підкреслювати, що найкращі властивості GPU проявляються на паралельній обробці даних, а певна частина HPC додатків не вписуються у цю програмну модель.

«Вражаюче велика кількість наукових програм не можуть подолати обмежень явного паралелізму даних», – стверджує Керлі. – «Код може розгалужуватись, може мати велику кількість рекурсій, самозмінюватись, використовувати рідкісні нерегулярні набори даних. Все, що може стати неприємністю для архітектури з явним паралелізмом даних, і все це працює на Intel Xeon Phi».

Це зовсім не означає, що створення високоефективних програм для Xeon Phi – просте заняття. Ви можете примусити програму працювати впродовж кількох днів за допомогою простих змін коду і відповідної компіляції, але Intel натомість розглядає Xeon Phi як багатоядерний CPU, який не вимагає додаткових зусиль.

Докази позицій сторін будуть у вигляді додатків. На даний момент NVidia має шестирічну історію перенесення алгоритмів з CPU на GPU й, схоже, надалі буде вірою і правдою працювати над CUDA.

Intel, у свою чергу, це та сила, з якою не можна не рахуватись, тому, якщо компанія зможе зібрати достатню кількість програмістів-ентузіастів, вона зможе досить швидко надолужити згаяний час.

Теги: GPU, Intel, Kepler, Knights Corner, MIC, NVidia, Tesla, Xeon Phi, високопродуктивні обчислення, охолодження, прискорювачі, процесори

Матеріали за темою:

Коментарі