Конференція Високопродуктивні обчислення, Київ, 13-15 жовтня 2014

Заплутана історія несортованих зв’язків

16 грудня 2011

Статистичний метод відкриває приховані зв’язки у складних даних.

Якось американський гуморист Еван Изар назвав статистику наукою з виробництва ненадійних фактів з надійних цифр. Новітні технології обіцяють зробити ці факти набагато більш надійними.

Брати Девід Решеф з МІТ та Якір Решеф, що наразі працює в Науковому інституті Вейцмана в Реховоті, Ізраїль, а також їх колеги розробили метод вилучення зв’язків та трендів із складних наборів даних, які не можна було отримати іншими методами статистичного аналізу. Вони описують свій підхід у журналі Science.

«Це видатне досягнення!»,- каже Дуглас Сімпсон, статистик Університету Ілінойса,- «Воно відкриває нові напрямки пошуку».

Запаморочливі складності

Візьмімо просту задачу. Ви зібрали дуже багато даних про якусь властивість системи, яка може залежати від багатьох факторів. Щоб визначити, що насправді залежить від чого, ви зображаєте їх на графіку.

Якщо вам пощастить, ви знайдете, що одна властивість простим чином змінюється, як функція від іншої властивості. Наприклад, здоров’я людей може поступово покращуватись, якщо їх дохід збільшується. Існують добре відомі статистичні методи, щоб визначити, наскільки надійними є такі залежності.

А якщо існує одночасно багато залежностей між даними? Припустимо, що ви вивчаєте, як гени взаємодіють у організмі. Активність одного гена може корелювати з активністю іншого, але при цьому можуть бути сотні інших заплутаних зв’язків. На перший погляд, дані взагалі можуть виглядати як випадковий шум.

«Якщо у вас набір даних з 22 мільйонами залежностей, 500 залежностей, які можливо вас цікавлять, будуть практично непомітними», - каже Якір Решеф.

Залежності ще складніше відшукати, якщо ви не знаєте, що ви шукаєте, якщо у вас немає гіпотези про те, що одна річ залежить від іншої.

Статистичний метод, розроблений братами Решеф та їх колегами, дає змогу отримати засоби для розв’язання подібних задач. Він дає можливість упізнавати багато накладених зв’язків між змінними та вимірювати, наскільки тісним є кожен з них на основі кількості так званого максимального коефіцієнта інформації (МКІ). МКІ обчислюється за допомогою зображення даних на графіку і перебору всіх варіантів поділу графіка на блоки чи таблиці, які можуть охопити максимальну кількість точок. МКІ отримується з блоків, які в певному сенсі є найкращими.

Щоб продемонструвати потужність даної методики, науковці застосували її до широкого кола задач. В одному з випадків вони шукали фактори, які впливають на загальний рівень здоров’я людей, використовуючи дані Всесвітньої організації здоров’я (Женева, Швейцарія). І вони змогли знайти досить неочевидні зв’язки. Наприклад, рівень ожиріння у жінок збільшується разом з рівнем доходів на тихоокеанських островах, де огрядність є ознакою статусу, але такої залежності немає в решті світу.

В іншому випадку дослідники визначили гени, які були присутні періодично, але з різними циклами, під час життя клітин пивних дріжджів (Saccharomyces cerevisiae). Також вони відкрили групи бактерій у людському кишківнику, які розмножуються або занепадають під час зміни дієти, помітивши, що одних бактерій багато, а інших мало. Під час іншого дослідження було встановлено, що зарплата професійних гравців у бейсбол має значний вплив на якість їх гри.

Кореляція та причинність

Решеф попереджає, що пошук статистичних залежностей – це лише початок розуміння залежностей між змінними. «В кінці роботи вам знадобиться експерт, який скаже, що ваші результати означають», - каже він. «Але фільтрування сміття, яке дозволить комусь іншому дізнатись щось нове, - це часто задача, яка не потребує спеціальних знань про дані. Ми сподіваємось, що цей інструмент буде корисним практично в кожній області, яка має справу з неймовірно великими обсягами даних.» Решеф згадує генетику, епідеміологію, фізику елементарних частинок та науки про людський мозок, щоб показати приклади наук, які «насичені даними». Метод також повинен бути дуже корисним у спортивній статистиці, соціальних науках та економіці.

Одне велике питання, яке залишається після того, як залежності знайдені, - це питання про те, що їх спричиняє. Статистики завжди стверджують, що кореляція не означає причинності. «Ми бачимо проблему причинності як потенціальну мету. Висновки відносно причинності – це надзвичайно складні задачі, але вони вже добре вивчені раніше»,- каже Решеф.

Біоінформатик Райя Ханін з Нью-Йоркського центру вивчення раку визнає, що у неї є необхідність у методі, подібному до методу братів Решеф, але не поспішає робити висновки про те, чи є МКІ панацеєю. «Я не зовсім впевнена, чи продуктивність цього методу є настільки хорошою у порівнянні з іншими»,- каже вона.

Вона наводить приклад з бактеріями кишківника, стверджуючи, що для вивчення згаданого феномена не потрібні настільки складні статистичні методики. «Багато років працюючи з такими даними, та оцінюючи їх за допомогою графіків, я можу впевнено стверджувати, що звичайних вимірювань кореляцій було б досить для відкриття такої несумісної поведінки бактерій»,- каже вона.            

Теги: математика

Матеріали за темою:

Коментарі