Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Контроль за станом системи охолодження кластера

А ГоловинськийАварії системи охолодження кластера є найчастішою причиною збоїв у роботі обчислювальних кластерів. Тому розробники та адміністратори приділяють особливу увагу правильному її проектуванню та експлуатації.

На жаль, з часом технічні характеристики кондиціонерів змінюються і не у кращу сторону. І потужності кондиціонера може не вистачити охолодити кластер у спекотне літо.

Професійний контроль за станом кондиціонера потребує спеціального обладнання та спеціалістів, тому в наших реаліях проводиться нечасто.

Однак, сучасні серверні платформи мають все необхідне, щоб організувати постійний комплексний моніторинг стану системи охолодження кластера. Це інтерфейс IPMI, який дозволяє знімати показники роботи сервера незалежно від операційної системи, навіть у випадку коли сервер вимкнений чи завис. Серед показів різних датчиків знімається і температура всередині корпуса.

Таблиця температури вузлів

Табличне представлення температур дозволяє визначити проблемні вузли.

Крім того, збереження температур всіх вузлів дозволяє побудувати статистичні показники, які характеризують стан системи охолодження. Це середня, мінімальна та максимальна температури, а також квантілі. Якщо з першими зрозуміло, то квантілі потребують пояснення. Квантілі вказуть межі, у яких перебувать температури заданого відсотка вузлів. Наприклад, температури 80% вузлів знаходяться у межах між 10-м та 90-м квантілем.

Графік температур

На рисунку показаний температурні показники кластера СКІТ, зняті за допомогою системи SCMS.pro.

Ширина між мінімальним та максимальним значеннями, між квантілями показують, наскільки рівномірно охолоджується кластер, як вдало спроектоване його охолодження. Різкі зміни можуть означати проблеми з певними контурами охолодження.

Коливання середнього

Основну інформацію нам дає середнє. На цьому рисунку видно, що середнє має регуляні підвищення, причому вони попадають на найгарячіші години доби 13-17. Це говорить про те, що кондиціонери працюють на межі можливостей і не можуть повністю погасити пікові навантаження, тобто або необхідно додавати кондиціонери, або існуючі втратили потужність і потребують ремонту.

Графік температур під час аварії

На цьому графіку видно збільшення рівня максимальної температури та 90%-ї квантілі (07.08.2012 13:00). Це сталось через аварійну відмову одного з контурів системи охолодження, яка не впоралась з навантаженням. Після вжиття заходів по відновленню робочого стану контура, температурний режим у приміщенні швидко нормалізувався (08.08.2012 20:00).

Окремо відмітимо той факт, що мінімальна температура та 10%-й квантіль майже не змінились навіть у моменти відмови одного з контурів охолодження. Це говорить про локальний перегрів тільки частини вузлів, які знаходяться біля несправного кондиціонера.

Теги: SCMS.pro, кондиціонер, охолодження, ЦОД

Матеріали за темою:

Коментарі