Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Великі перспективи індустрії big data

19 лютого 2013

8 лютого 2013 року відбувся експертний семінар РВК «Big data - нові горизонти», учасники якого оцінили поточний стан галузі «великих даних», а також обговорили приклади використання технології та її найближче майбутнє.

Семінар вів генеральний директор ВАТ «РВК» Ігор Агамірзян. Відкриваючи захід, він визначив сутність поняття «Big data»: це технологія, яка дозволяє порівнювати та співставляти ту інформацію, яка раніше була принципово непорівнянна.

Визначень поняття Big data існує декілька. Одне з них свідчить, що це дані, які неможливо обробити традиційними способами через їх великий обсяг. Інше - що це феноменальне прискорення нагромадження даних та їх ускладнення. Третє визначення стверджує, що це набір інструментів, що дозволяють працювати з даними, незалежно від їх типу та обсягу.

Така ситуація пояснює той факт, що для характеристики Big data використовують «три v»: обсяг (від англ. «volume», мається на увазі обсяг даних), швидкість (від англ. «velocity», це швидкість накопичення нових даних та їх обробки) та різноманіття (англ. «variety» позначає різноманітність типів даних, які можуть оброблятися).

У вітальному слові замісник міністра зв'язку та масових комунікацій Росії Марк Шмулевич розповів, що його відомство підтримує цю галузь та буде сприяти дослідженням в сфері Big data.

Чиновник з жалем відзначив, що, якщо взяти умовний top50 найсильніших вчених у цій галузі, то виявиться, що жоден з них не працює в Росії. Це пов'язано, у тому числі, з тим, що фахівці в цій області вкрай затребувані на Заході.

Наприклад, на одному з найпопулярніших в США сайті пошуку вакансій середня пропозиція для астронома зі ступенем PhD - 50 тисяч доларів на рік, всього 335 вакансій. Тоді як середня пропозиція для фахівця в галузі Data science - 100 тисяч доларів на рік при декількох тисячах відкритих вакансій.

Основну доповідь на семінарі представив професор Вищої школи економіки Леонід Жуков. Він одразу зазначив, що є не тільки дослідником в області Big data, але й використовує ці технології в компанії-стартапі.

Жуков розповів про історію появи терміну Big data. Великий галас навколо цієї теми виник після того, як в червні 2011 року консалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок Big data в мільярди доларів.

Далі посипалися публікації в багатьох досить шановних виданнях: від Wall Street Journal до Harvard Business Review. Думка про те, що сфера Big data як мінімум другий за потенціалом сектор IT індустрії стала загальноприйнятою.

У 2012 році Білий дім виділив 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій Big data в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 - вже 4,5 мільярда доларів.

Індустрія Big data виникла завдяки тому, що все більшій кількості структур та компаній необхідно було обробляти такі обсяги даних, що традиційні методи вже не годилися. Так, за деякими даними, Google в день обробляє 24 петабайта даних.

Суперкомп'ютери, які в теорії могли впоратися з таким потоком, були не по кишені більшості IT-компаній, та їм стали шукати заміну. Одна з ідей полягала в тому, щоб об'єднати в мережу величезну кількість звичайних комп'ютерів та розподіляти між ними обчислення. Але виникла проблема - така система постійно давала збої.

Рішенням стала програма, яка дублює обчислення в різних ділянках величезної мережі, завдяки чому відмова одного з її елементів не позначиться на кінцевому результаті.

Історично склалося так, що інноваційні розробки в області Big data починалися не в маленьких стартапах, як це часто буває в IT-індустрії, а у великих компаніях. Так, наприклад, технологія розподіленої обробки даних MapReduce була розроблена в Google, a Hadoop - вільне ПЗ для виконання розподілених обчислень на кластерах з сотень та тисяч вузлів - відразу після створення активно підтримала компанія Yahoo.

Більшість програмних продуктів в області Big data є вільними, а їх адаптацією та просуванням займаються ті самі стартапи. Традиційні постачальники рішень в області зберігання та обробки даних, такі як IBM та EMC уважно ставляться до нових розробок в області Великих Даних та намагаються використовувати їх у своїх продуктах спільно з власними технологіями.

Одним зі співдоповідачів виступив В'ячеслав Нестеров, генеральний директор центру розробок EMC (м. Санкт-Петербург) - компанії, яка займається зберіганням та управлінням інформацією.

В'ячеслав Нестеров розповів, що щодня генерується близько 7 тисяч петабайтів нових даних, з них структуровані тільки 10% - причому ця частка постійно зменшується. Сьогодні 15-20% інформації генерується в "Інтернеті речей" - в тому числі, у численних телефонах, планшетах та інших пристроях. До 2020 року частка інформації, що виробляється «Інтернетом речей», зросте до 40%.

Крім стрімко зростаючого Інтернету, з'являється величезна кількість медичної інформації, наприклад, отриманої при секвенуванні генома. Зараз існують десятки потужних баз даних, в яких акумульована гігантська інформація про структуру не тільки генома людини, але й геномів багатьох інших організмів.

В одній ДНК міститься близько трьох мільярдів нуклеотидних пар, що відносно небагато з точки зору обсягу інформації. Але треба ще взяти до уваги необхідність зберігання «сирої» інформації, одержуваної з секвенаторів, результатів дослідження білкових молекул та інших біоінформатичних даних.

Інформацію, яку можливо отримати з розшифрованого генома, ще тільки належить зібрати, осмислити, піддати порівняльному аналізу. Для роботи саме з такою величезною кількістю наукової інформації і з'являються технології, що опинилися в центрі уваги семінару.

Big data набуває популярності тому, що наявні до цього способи роботи з інформацією вже не задовольняють запити бізнесу. Так, Нестеров порівняв роботу Data scientist та бізнес-аналітиків. Бізнес-аналітики вивчають отриману інформацію про минуле та відповідають на запитання «а що сталося?».

Аналітики даних (Data scientists) здатні відповісти на питання «а що станеться, якщо ...?». Для цього вони повинні володіти знаннями в галузі статистики, математики, розбиратися у предметній області дослідження та додатково вміти трохи програмувати. Саме тому випускники університетів у сфері Data science в Каліфорнії «коштують» від  100 тисяч доларів на рік.

Сергій Лихарьов, керівник з розвитку бізнесу IBM Big Data Solutions, у своєму виступі розповів, що думають про технології Big data у великих компаніях. За його словами, 6% компаній вже застосовують відповідні технології, 22% - планують їх впровадити, 47% розглядають бізнес-кейси, тобто приміряють досвід на себе, 24% підприємців поки роздумують про доцільність впровадження технологій Big data.

Big data, за словами Лихарьова, дозволить компаніям по-новому поглянути на клієнта. Аналіз не тільки структурованих даних про клієнтів, але й інформації, наприклад, з соціальних мереж, допоможе компаніям краще зрозуміти, чому клієнти користуються їх продуктами та послугами, чому вони рекомендують компанію своїм знайомим, що хочуть поліпшити.

Ключова відмінність тут в тому, що в соціальних мережах інформація часто представлена ​​у вигляді звичайного тексту та виділити звідти цінні знання - не завжди просте завдання.

Big data дозволяє розширити традиційні системи інформаційної безпеки. Аналіз даних, що надходять з різних джерел у різних форматах, можливість зіставлення цих даних, виявлення аномалій, реагування на загрози в реальному режимі часу - все це стало можливим з використанням технологій обробки та аналізу Big data. Важливо, що такий аналіз можна проводити практично на необмеженому обсязі даних.

Big data дозволить спростити зберігання даних. Найчастіше в аналітичних сховищах скупчуються величезні масиви інформації, цінність якої вже не очевидна, а витрати на зберігання відносно високі. Технології Big data допоможуть розвантажити аналітичне сховище, при необхідності надаючи архівну інформацію для аналізу та дослідження.

Спікери зійшлися на тому, що зараз галузь Big data знаходиться на піку громадського інтересу та, відповідно, венчурних вкладень. Поки не можна зробити висновок, чи виявляться Big data незабаром необхідними в повсякденному житті людства, як персональний комп'ютер та Інтернет, але те, що вони вже змінюють життя та бізнес на наших очах, не викликає сумнівів.

За матеріалами http://polit.ru.

Теги: big data, великі дані, збереження даних

Матеріали за темою:

Коментарі