Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

NVidia оприлюднила GPU продуктивністю 1,3 ТФлопс

12 листопада 2012

Сьогодні, після оприлюднення компанією NVidia нового сімейства суперкомп’ютерних GPU карт сімейства Kepler, почалась битва терафлопсних прискорювачів.

Карти Tesla K20 та K20x представляють найбільші досягнення компанії та спрямовані на підтримку успішних позиції компанії у галузі HPC. Виробник оприлюднив нове обладнання на конференції SC12 у Солт Лейк Сіті.

NVidia продовжує бути головним виробником прискорювачів для кращих світових суперкомп’ютерів. Але у світлі неминучої появи конкурента Xeon Phi від Intel, NVidia матиме першого серйозного суперника з часів розробки перших варіантів Tesla у 2006 році.

AMD також оголосила про вихід найпотужнішого прискорювача FirePro з продуктивністю більше терафлопса. Але на сьогоднішній день нові K20 та K20x виглядають непереможними, принаймні з точки зору чистої продуктивності одної плати.

NVidia Tesla K20x

Топова карта K20x має продуктивність 1,31 ТФлопс подвійної точності та 3,95 одинарної. Це вдвічі більше для подвійної та втричі для одинарної точності, ніж найкращий прискорювач серії Fermi, M2090.

Головний процесор містить 2 688 ядер, які працюють на частоті 732 МГц. Максимальна споживана потужність 235 Вт, що на 10 Вт більше, ніж у сімейства Fermi. Пропускна здатність пам’яті K20x зросла на 40% у порівнянні з M2090 – з 177 до 250 ГБіт/с, хоча загальний обсяг пам’яті лишився незмінним – 6 ГБ.

Саме плати K20x зробили головний внесок у 27 ПФлопс пікової продуктивності нового суперкомп’ютера Titan з Національної лабораторії Оук Рідж. І саме завдяки їх оптимізації Titan став переможцем у змаганні світових суперкомп’ютерів з результатом у 17,6 ПФлопс, що зробило суперкомп’ютер IBM Sequoia другим з результатом 16,3 ПФлопс.

У той час, як K20x є топовим чипом, базова модель Tesla K20 має лише трохи меншу продуктивність у 1,17 ТФлопс подвійної та 3,52 ТФлопс одинарної точності. Менша продуктивність пов’язана з меншою кількістю ядер (2 496) та нижчою частотою GPU (706 МГц).

Відповідно, споживає прискорювач 225 Вт. Обсяг пам’яті зменшено до 5 ГБ разом з меншою пропускною здатністю – 208 Гбіт/с. Призначення K20 не зовсім зрозуміле, хіба що він розрахований на ситуації, в яких не потрібні найвища продуктивність процесорів та пам’яті.

Відмітимо, що на одинарній точності прискорювачі Kepler утричі швидші, ніж на подвійній, а не удвічі, як це було для серії Fermi. NVidia спеціально так спроектувала. Пояснення полягає у тому, що одинарна точність використовується частіше, що надасть додаткового прискорення у додатках, які використовують саме одинарну точність.

На фоні помірного приросту чистої продуктивності пам’яті у порівнянні з приростом обчислювальної продуктивності пропускна здатність у режимі корекції помилок (ECC) значно покращилась.

Зазвичай увімкнення режиму ECC означає значні накладні витрати, але цього разу інженерам NVidia вдалось їх значно зменшити. Як стверджує Суміт Гупта, керівник підрозділу NVidia Tesla, увімкнення режиму ECC означатиме зменшення продуктивності типового додатку на 6-8%, що приблизно вдвічі менше, ніж у пристроїв сімейства Fermi.

Гупта каже, що збільшилась не тільки чиста продуктивність. Завдяки безлічі мікроархітектурних оптимізацій, швидкість реального ПЗ також значно покращиться.

Наприклад, у функції DGEMM для множення матриць з подвійною точністю, яка використовується у значній кількості наукових програм, Tesla K20x показує 1,22 ТФлопс. Це утричі швидше, ніж прискорювачі минулого покоління, хоча за чистою продуктивністю K20x лише вдвічі переганяє M2090 на подвійній точності.

Ефективність використання прискорювача у Linpack також покращилась: з 61% на Fermi до 76% на K20x. Так, один сервер з двома K20x та двома процесорами Xeon видає 2,25 ПФлопс у Linpack. Минулі серії GPU прискорювачів страждали відносно низькою ефективністю роботи Linpack: 50-60% від пікової продуктивності.

«Якщо Fermi був великим стрибком вперед, то Kepler – удвічі більший стрибок у сенсі революційних досягнень у HPC», – каже Гупта.

Головне – це реальна продуктивність у реальних задачах. Гупта стверджує, що користувачі відчують велике прискорення після модернізації апаратного забезпечення.

У порівнянні зі стандартним сервером на Xeon, такий само корпус з двома K20x дасть значні прискорення у наукових додатках, включаючи MatLab FFT та Chroma (прискорення у 18 разів), пакети геодинаміки SPECFEM3D (10 разів) та молекулярної динаміки AMBER (8 разів). Найкраще прискорення у 32 рази досягається у пакеті WL-LSMS з матеріалознавства.

На фронті змагання продуктивності на один ват результати Kepler виглядають більш ніж солідно. Дійсно, нові прискорювачі дають у два-три рази більше продуктивності на один ват, ніж попереднє покоління, а отже, системи на основі Kepler мають злетіти на вершину списку Green500.

За результатами попередніх тестів невеликий суперкомп’ютер на основі K20x зміг видати 2 142 МФлопс на 1 Вт енергії у тесті Linpack. Це б однозначно побило рекорд IBM Blue Gene/Q з результатом 2,1 ТФлопс/Вт.

Продажі прискорювачів K20x вже почались. За останні 30 днів за даним NVidia вже продано карт сумарно на 30 ПФлопс, з них 24 ПФлопс дістались суперкомп’ютеру Titan. Це більше, ніж сумарна продуктивність минулорічного списку Top500.
Розробки NVidia складають гідну компанію новим прискорювачам Intel Xeon Phi та AMD FirePro S10000.

Теги: AMD, GPU, HPC, IBM, Intel, Kepler, Linpack, NVidia, Tesla

Матеріали за темою:

Коментарі