Как большие данные меняют науку

Среднее время прочтения — 13 мин.

Новые биомедицинские методы, такие как секвенирование генома нового поколения, создают огромные объемы данных и трансформируют научный ландшафт. Они ведут к невообразимым прорывам, но исследователи с трудом за ними поспевают.

Как большие данные меняют науку 1 — Иллюстрация: Давид Биро для Mosaic

«В такие моменты я начинаю ощущать свой возраст», — говорит Энн Коркоран, ученая из института Бабрахама, исследовательского центра биологии человека в Кембридже. Коркоран возглавляет группу, которая изучает, как наши геномы — ДНК, свернутая почти в каждой клетке наших тел — связаны с иммунной системой и, в частности, антителами, которые защищают нас от инфекций.

Читает Тарасов Валентин
Podster, iTunes, YouTube, Скачать, Telegram, VK, Spotify

Она, по собственным же словам, «биолог старой закалки»: привыкла использовать пипетки и чашки Петри, защитные очки, проводить эксперименты с мензурками в рабочем кабинете — делать все то, что входит в понятие классических экспериментов, или мокрых лабораторий (им противопоставляют dry lab, или сухие лаборатории — проведение экспериментов с помощью прикладного математического или компьютерного анализа — прим. Newочём).

На сегодняшний день такого набора навыков недостаточно. «Когда 15 лет назад я нанимала аспирантов, они все были ориентированы на практические эксперименты, — говорит Коркоран. — Сейчас при трудоустройстве первое, на что я обращаю внимание, — могут ли соискатели справиться с сложным биоинформационным анализом». Сегодня, чтобы быть биологом, вам необходимо быть статистиком или даже программистом. Вы должны уметь работать с алгоритмами.

Как большие данные меняют науку 2 — Иллюстрация: Давид Биро для Mosaic

Алгоритм представляет собой набор инструкций — последовательность предопределенных шагов. Кулинарный рецепт можно рассматривать как алгоритм, хотя наиболее очевидным примером будет компьютерная программа. Вы берете свои данные (ингредиенты, числа или что-то еще), прогоняете их по этапам алгоритма, — который может быть простым, как «прибавить единицу к каждому числу» или сложным, как поисковый алгоритм Google — и он выдает результат: торт, страницу поиска, таблицу Excel.

Такие исследователи как Коркоран вынуждены использовать алгоритмы: биология изменилась за 17 лет с тех пор как она стала руководителем группы. А изменил ее невероятно огромный поток данных, который генерируется новыми биомедицинскими методами, особенно секвенированием нового поколения.

Не так давно секвенирование всего генома — определение порядка всех 3 млрд пар ДНК в спирали — занимало годы. Выполнение проекта «Геном человека», первой завершенной последовательности всего человеческого генома, заняло 13 лет с момента появления концепции и до ее исполнения в 2003 году, и обошлось примерно в $2,5 млрд. Сегодня метод секвенирования нового поколения позволяет проделать то же самое за 24 часа и $1200.

Это полностью изменило работу ученых. Дело не только в том, что они теперь реже ставят эксперименты, но и просто в том, что изменился набор необходимых компетенций. Весь научный процесс — как возникает и проверяется идея — перевернулся.

Многим ведущим ученым пришлось разбираться в методах, которых не существовало на момент их обучения. Университеты вынуждены играть в догонялки: большинство учебных программ не дают навыки, в которых нуждаются современные биологи. Прежде всего ситуация привела к научным открытиям — прорывам, которые были невозможны 20 или даже 10 лет назад.

В десяти минутах езды от Бабрахама, в деревне Хинкстон, находится еще один крупный научный центр — Институт Сэнгера. В 2018 году ему исполнилось 25 лет, и быстро развивающаяся история геномики отражается в самой его архитектуре.

«Я работал после защиты докторской в Сэнгере», — рассказывает Мориц Герштунг, в настоящее время руководитель группы в Европейском биоинформационном институте, расположенном по соседству. Вспоминая, он смеется: «Вы наверняка угадаете, в какие времена был разработан проект здания. Здесь так много кабинетов для лабораторной работы, и так мало мест, где ученые могли бы просто сесть и анализировать данные на компьютере».

Это правило применимо везде, считает Гил Маквин, профессор статистической генетики в Институте больших данных при Оксфордском университете. Геном исследуют за компьютером, а не на рабочем месте. «Если вы посмотрите на любую исследовательскую лабораторию, основанную 15 лет назад, вы увидите, что на 90% это мокрая лаборатория, — говорит он. — И если вы зайдете в одну из них, большинство людей будут сидеть за компьютерами. Если бы сегодня вы строили биомедицинский исследовательский центр, вы бы сделали его на 10% мокрой лабораторией и на 90% — сухой».

Однако это не единственная перемена. «В науке почти перестал использоваться очень сфокусированный, целенаправленный, основанный на гипотезах подход: „У меня есть идея, я планирую эксперимент, провожу его и решаю, где я был прав, а где ошибся“».

Раньше это выглядело так: у ученого есть некая правдоподобная идея насчет того, почему ген может делать что-то, что можно представить в виде правдоподобно звучащего биохимического пути, который мог бы связать ген с болезнью или симптомом. Время на секвенирование генов и ограниченная вычислительная мощность означали, что ученый должен быть совершенно уверен в том, что обнаружит что-то, прежде чем воспользоваться дорогостоящим оборудованием и потратить время на анализ.

Теперь вы просто собираете много данных и позволяете им решить, какой должна быть гипотеза. Если взять 10 тысяч геномов людей с заболеванием и 10 тысяч без отклонений, можно сравнить их, найти различия и затем выяснить, какие гены связаны с болезнью, без необходимости заранее предполагать.

Как большие данные меняют науку 3 — Иллюстрация: Давид Биро для Mosaic

Этот подход известен как полногеномный поиск ассоциаций — распространенная форма анализа в эпоху господства данных. Идея проста: вы берете геномы у большого числа людей, секвенируете их и затем используете алгоритм для сравнения всех последовательностей ДНК — не только 24 тысячи генов, которые составляют всего лишь 1-2% генома, но и все-еще-несколько-загадочные некодирующие участки ДНК. Алгоритм может быть достаточно простым: например, сравнивать, как часто определенный ген появляется у людей с определенными симптомами или состояниями, и у людей без них. Если вариант встречается с симптомом или состоянием значительно чаще, чем могла бы дать случайность, значит, алгоритм отмечает его как возможную причину.

Трудность заключается в том, что почти все болезни сложны и складываются из воздействия десятков или даже сотен генов или некодирующих участков ДНК. Это быстро приводит к необходимости сложного многомерного анализа, и, хотя математика в нем давно используется, масштаб задачи диктует необходимость сложных алгоритмов. Часто они могут сравнивать десятки или сотни параметров одновременно.

Это немного похоже на поисковый алгоритм Google. Процесс, используемый для ранжирования каждой веб-страницы, не такой сложный — например, он считает, как часто на странице появляются ваши поисковые слова, где на странице они появляются, сколько ссылок на эту страницу и так далее. Однако он комбинирует сотни этих параметров и применяет их одновременно к миллиарду веб-страниц. Человеку сделать такое не под силу.

Алгоритмический подход оправдал себя. Исследования геномики рака командой Герштунга принесли одни из самых впечатляющих результатов, например, в области изучения лейкемии.

От этого тяжелого и зачастую смертельного заболевания в некоторых случаях можно вылечиться после полной трансплантации костного мозга. Но это настолько сложная процедура, что осложнения после нее сами по себе могут привести к летальному исходу. Трансплантацию можно предлагать только пациентам с самыми агрессивными формами лейкемии.

Предсказать, какие типы лейкемии окажутся самыми опасными, чрезвычайно сложно. Симптомы сложны и не всегда говорят достаточно о прогнозе течения.

Команда Герштунга провела секвенирование геномов клеток полутора тысяч раковых новообразований разных людей. Они искали спровоцировавшие болезнь мутации ДНК, чтобы посмотреть, с какими результатами они коррелируют. Среди образцов обнаружилось 5 тысяч разных мутаций и почти тысяча разных комбинаций, которые команда разделила на 11 категорий с большим и меньшим риском. «Это позволяет врачам принимать более обоснованные решения», — говорит Герштунг.

Влияние подхода, основанного на данных, распространяется гораздо шире. Секвенирование геномов опухолей привело к «изменению сознания» в нашем подходе к раку в целом, считает Эдд Джеймс, профессор иммунологии рака в Университете Саутгемптона. «Сейчас мы куда внимательнее смотрим на то, что рак — это не просто масса бесконтрольно делящихся клеток».

Один вид рака может содержать десятки типов клеток, у каждой из которых будут разные комбинации мутаций, каждая уязвима перед разными препаратами. Таким образом, секвенирование позволяет врачам лучше и точнее выбирать лекарства для пациентов. «Прежде к людям относились как к представителям популяции: „Х% больных такое лечение поможет“, — говорит Джеймс. — Но с помощью секвенирования мы можем понять, поможет ли оно конкретному человеку».

Кроме различий, секвенирование генов также выявило неожиданные сходства между типами рака. Исторически, говорит Джеймс, принято определять рак по его анатомическому расположению: рак легких, печени и так далее. «С помощью секвенирования нового поколения мы видим, что у некоторых видов рака, локализованных в разных органах, больше общего друг с другом, чем с раком в том же органе. Поэтому лекарства, действующие, скажем, на рак молочной железы, могут подействовать и на другой тип рака».

Герштунг подтверждает: «С генетической точки зрения виды рака из разных анатомических зон в значительной степени дублируют друг друга. Можно даже обнаружить BRCA1 (ген, активно участвующий в раке молочной железы) в некоторых случаях рака простаты».

Эти данные приобретают все большее значение. Недавно Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США лицензировало препарат пембролизумаб для применения при любом виде рака, который демонстрирует признаки дефицита репарации неспаренных оснований, одной из форм ошибки репликации ДНК. Теперь стало возможно лицензировать лекарства на основе генетики рака, а не его местоположения.

И все это благодаря постоянному, непрекращающемуся потоку данных.

«Мы настолько быстро производим данные, что не успеваем их обрабатывать», — говорит Николь Уилер, специалист по данным из Института Сэнгера, которая изучает геномы патогенных бактерий. Маквин согласен: «По закону Мура, вычислительные мощности компьютеров удваиваются каждые 18 месяцев. Рост сбора биомедицинских данных происходит еще быстрее — благодаря секвенированию геномов, медицинской визуализации и цифровым клиническим исследованиям. Мы — супер-закон Мура в биомедицинских данных».

В начале 2000-х ученым-биологам стало все сложнее самостоятельно проверять полученные данные. Поэтому они были вынуждены нанять специалистов по данным или стать ими.

«Несколько лет назад мы зашли в тупик, — объясняет Энн Коркоран. — У нас было огромное количество информации, но мы не знали, что с ней делать. Так что пришлось на ходу изобретать алгоритмы, чтобы разобраться с данными и увеличить их объем. Если рассматривать единичные гены или небольшое их количество, можно справиться и в одиночку. Но когда приходится иметь дело с результатом экспрессии 20 000 генов, вы не сможете самостоятельно разобраться даже со статистическими выкладками».

Биологам — многие из которых выросли, как Коркоран, работая в лабораториях с мензурками, а не за компьютерами — пришлось научиться работать с данными. «Полагаю, более пожилых ученых часто пугает необходимость сталкиваться с алгоритмами, — рассказывает она, — и, возможно, они полагаются на своих молодых коллег чаще, чем следует или чем они хотели бы признать».

Она познала на практике, как функционируют алгоритмы, однако признает, что речь идет о «периоде, когда чувствуешь себя уязвимым: руководитель не обладает навыками, чтобы проверить работу своих подчиненных».

С ней согласен Вольф Рейк, один из коллег Коркоран по Институту Бабрахама, руководящий исследовательской группой по вопросам эпигенетики. По его словам, у старших ученых абсолютно другое мышление. «Это достаточно забавно — мои подчиненные на совещаниях рассуждают с точки зрения того, что происходит с геномом как с целым. Однако я думаю о единичных генах и обобщаю происходящее с ними — так меня приучили мыслить».

По мнению Рейка, руководителям его уровня важно понимать работу молодых ученых: «Важнее всего развивать интуицию относительно того, как использовать инструменты… поскольку в конечном счете именно я подписываюсь под исследованием».

Молодые ученые, напротив, росли вместе с массивами данных. Некоторые из них пришли в науку из соответствующей отрасли — Герштунг получил диплом бакалавра по физике. То же можно сказать и о некоторых других руководителях групп, включая Маквина. Однако остальные ученые, получившие более близкое к биологии образование, в конечном счете тоже начали говорить на языке кода. «Я бакалавр биологии, это моя предметная область», — говорит На Чаи, исследователь из Института Сэнгера. Она изучает влияние генотипов на различные черты человеческого характера.

«Теперь я каждый день занимаюсь статистическим анализом. Это было похоже на изучение иностранного языка. Или нескольких одновременно, — объясняет она. — Мне приходилось переключать мозг с категорий биохимии и блок-схем на более структурированный тип мышления в категориях кода».

По ее словам, старшим коллегам достаточно успешно удается идти в ногу с последними достижениями науки. «Возможно, они не могут писать код, но они понимают, как функционирует анализ».

Уилер, коллега Чаи, также имеет за спиной образование в сфере биологии, но в конечном счете начала кодить. «У меня нет традиционного образования в сфере разработки программного обеспечения, — объясняет она. — Я научилась писать код самостоятельно, во время аспирантуры. [Мой код] не самый эффективный или элегантный, но он позволяет увидеть, какие вычисления вам необходимо произвести, и выполнить их».

В ответ на эти потребности в последние несколько лет стали меняться программы обучения для бакалавров. К примеру, Университет Ньюкасла теперь располагает модулем по биоинформатике в рамках программы по биологии; исследовательские проекты студентов последнего года обучения в Ридинге включают в себя вычислительную биологию, хотя на первых курсах их посещают немногие, так что в конце обучения студентам приходится осваивать эти навыки в последнюю секунду. Имперский колледж Лондона, где уже есть курсы биоинформатики, планирует добавить в расписание основы программирования для студентов первого и второго курсов. «Я думаю, все признают, что биология включает в себя большие массивы данных, чем раньше, — поясняет Уилер, — так что людям нужно иметь необходимые навыки для их обработки».

Однако перемены происходят медленно. Иногда против выступают сами студенты, не все из которых пришли в биологию, чтобы писать код. «Я бы сказала, что некоторые курсы на программе бакалавриата приживаются, — пояснила Коркоран. — Однако в целом они не особо успешны, раз эти курсы снова появляются в магистратуре».

Тем не менее перемены необходимы. Даже ориентированные на работу в лаборатории ученые заявили, что проводят за экспериментами менее 50% рабочего времени. Некоторые сказали, что речь идет о 10%. Кое-кто вообще не проводит эксперименты, как Чаи, с тех пор как она полностью переключилась на биоинформатику.

По словам Уилер, сдвиг к большей зависимости от массивов данных может казаться отходом от науки как проверки гипотез к процессу их выдвижения. Один ученый, который предпочел остаться анонимным, беспокоится, что большие объемы данных сократили масштаб креативности в науке. Однако, если верить Уилер, все совершенно не так. «Данные изменили саму концепцию креативности. В некотором смысле даже появилось больше возможностей ее проявить. Можно попробовать воплотить безумные идеи за относительно скромные суммы».

Есть и другие плюсы. «К гипотезам можно привязаться — поясняет Мэтт Боун, биоинформатик из Института Эрлхэма, центра вычислительных исследований в области биологии в Норфолке, Великобритания. — Лучше быть незаинтересованным и непредвзятым наблюдателем, смотреть на чистый лист и видеть, как на нем проступает картина происходящего». Но самое большое преимущество состоит в том, что исследования, основанные на массивах данных, все время приносят новые и интересные результаты в сложных областях, которые ранее были недоступны для изучения.

Стефан Шонфельдер, еще один исследователь из Института Бабрахама, изучает 3D-модели хромосом и их влияние на экспрессию генов. По завершении проекта «Геном человека» удалось обнаружить, что речь идет о намного меньшем количестве генов, чем предполагалось ранее — около 24 000 (почти четверть от числа, которое ученые ожидали получить). Остаток ДНК не нес в себе кода для кодирования белков.

С тех пор исследователи поняли, что часть из того, чем занимаются эти не занятые в кодировании участки, необходима для регулировки экспрессии генов: они активируют их в некоторых клетках и «выключают» в других. И часто способ их действия кроется в механизме сворачивания в различные формы в разных клетках.

Как правило, хромосомы изображают как объекты в форме буквы Х. Но это справедливо лишь во время процесса деления клетки. Все остальное время два метра ДНК внутри практически каждой клетки спутаны в сложный узел. Так что какая-то часть ДНК может находиться на очень большом расстоянии от гена на хромосоме, однако по-прежнему быть в состоянии регулировать его, поскольку на практике между ними установлен тесный физический контакт, объясняет Шонфельдер. «Именно поэтому важно изучать все эти процессы в виде 3D-моделей: если вы просто посмотрите на последовательность аминокислот и начнете строить предположения, что они регулируют работу соседнего гена, скорее всего окажется, что вы ошибаетесь».

Кроме того, геномы сворачиваются очень по-разному. Шонфельдер рассказывает: «Тот же самый геном в Т-клетке будет отличаться по форме от генома в клетке печени или мозга, и это связано с тем, что экспрессируются различные гены, а клетки выполняют различные функции».

Использовать 3D-модели в каждой ситуации чрезвычайно трудно. Такая работа включает в себя установление аминокислотной последовательности в разных типах клеток и понимание того, чем они отличаются, а также какие части ДНК взаимодействуют друг с другом. Однако для начала ДНК надо обработать с применением сложной техники — перекрестного сшивания и лигирования, чтобы в результате секвенирования понять, какие участки находятся рядом. Если два отдельных участка обнаружены неподалеку друг от друга, возможно, они «сложились» таким образом, чтобы один из них влиял на другой. Однако — что случается намного чаще — это просто продукт случайного распределения.

Чтобы выцепить настоящую причинно-следственную связь из всего «белого шума», необходимо изучить миллионы единиц данных и увидеть, какие связи продолжают появляться немного чаще, чем остальные. Именно в этот момент в дело вступают алгоритмы. Когда вы определили, какие участки хромосом регулярно вступают в контакт с другими участками, вы можете использовать другие алгоритмы, чтобы построить 3D-модели, основанные на этих точках соприкосновения.

Как большие данные меняют науку 4 — Иллюстрация: Давид Биро для Mosaic

«Этой области всего лет 15», — объясняет Шонфельдер. — До этого я вообще не думал о форме генома, я представлял его себе в виде комка спагетти, размазанного по ядру. Я думал, что это всего лишь логистическая проблема: вместить его в ядро размером, может, в 5 микронов».

«Что абсолютно изумило меня, так это существующий высокий уровень регулирования: несмотря на чрезвычайно высокое сжатие, он позволяет производить столь тонкую настройку». 3D-формы хромосом, а также то, какие регулирующие инструменты взаимодействуют с какими генами для достижения этой формы, станут важной частью изучения механизма формирования 200 типов клеток в человеческом теле.

Маквиан утверждает, что исследование генома заставило врачей коренным образом пересмотреть взгляды на такое заболевание, как множественный склероз. «Мы нашли более 250 участков генома, которые могут соответствовать риску его возникновения, — говорит он. — Это позволило нам сделать довольно точные прогнозы относительно риска развития заболевания для индивида. Однако находка также позволила увидеть пересечения с ревматоидным артритом. Некоторые из генов, которые повышают риск заболевания множественным склерозом, снижают риск артрита».

«Так что мы выяснили, что это аутоиммунное заболевание, пусть даже оно и проявляется как нейродегенеративное заболевание, — объясняет Маквиан. — Из-за этого открытия четыре или пять компаний стали разрабатывать новые курсы лечения».

А у Вольфа Рейка из Института Бабрахама есть ужасная история, практически из сферы научной фантастики. Он работает в области эпигенетики и изучает, как химическое окружение клетки влияет на экспрессию генов; он секвенирует РНК, молекулу-переносчика, которая позволяет читать ДНК и создавать белки, чтобы понять, как она изменяется от клетки к клетке. Его группа особенно интересуется вопросом старения.

Пять лет назад он обнаружил — и дальнейшая работа Рейка это подтвердила, — что в наших клетках есть часы старения. Они называются метилированием ДНК. В алфавите ДНК четыре буквы: Ц (цитозин), А (аденин), Г (гуанин) и Т (тимин). По мере взросления все больше Ц в нашем ДНК приобретают маленький химический маркер, известный как метильная группа. Разобрать, что показывают эти часы, просто — только посчитайте метильные группы, — однако, опять же, количество данных настолько огромно, что их просто никак не обработать без алгоритма.

«Расшифровав данные этих часов, мы можем предсказать ваш возраст с точностью до трех лет, — заявляет Рейк. — Удивительно, но это наиболее точный из доступных нам биомаркеров старения». Что, конечно, очень интересно: это либо «считыватель внутреннего процесса старения, либо наша запрограммированная продолжительность жизни». Однако Рейк полагает, что мы можем прервать процесс старения: «Я уверен, что появятся лекарства и небольшие молекулы, которые смогут замедлить эти часы».

Возможно, было бы перебором надеяться, что большие массивы данных приблизят нас к вечной жизни. Однако все ученые, с которыми я поговорил, согласились, что развитие исследований генома на основе алгоритмов и больших данных преобразило науки о жизни. Оно заставило пожилых ученых любопытствовать, чем же занимаются их молодые коллеги. Оно заставило измениться ведущие исследовательские центры со слишком большими лабораториями, где раньше не было места даже для ноутбука.

Темпы перемен могут «дезориентировать», считает Шонфельдер.

«Жизнь стала намного сложнее. Набор навыков, которыми я обладал, когда писал диссертацию каких-то 13 лет назад, абсолютно недостаточен для того, чтобы угнаться за сегодняшней наукой». Однако перемены способствовали возврату оптимизма в область генетических исследований. Когда проект «Геном человека» приблизился к завершению, люди были в восторге и полагали, что после раскрытия генетических компонентов многих болезней их можно будет победить. Однако оказалось, что большинство из них сложные, полигенетические, их невозможно распознать, опираясь на единичные гены. Тем не менее сейчас стало возможным посмотреть на эти заболевания с помощью секвенирования нового поколения, а также инструментов для тщательного анализа всей информации.

«Теперь, когда я провожу эксперимент, я получаю 100, 200 млн единиц данных, — рассказывает Шонфельдер. — Я не думал, что такое будет возможно при моей жизни, однако это случилось за последние несколько лет. Мы можем начать работать над вопросами, о которых нельзя было и мечтать 10 лет назад. Это невероятная революция».

По материалам Mosaic
Автор: Том Чиверс

Переводили: Анастасия Ященко, Влада Ольшанская
Редактировали: Анастасия Железнякова, Илья Силаев

Правила такие: мы ищем самое интересное чтиво в зарубежном интернете. Делаем подборки из пяти статей с краткими описаниями и публикуем их во ВКонтакте и Телеграме . Вы голосуете за понравившиеся, а мы переводим и озвучиваем две победившие в голосовании.

P.S. У нас есть секретный канал ВКонтакте, через который можно получать новые статьи прямо в личные сообщения.

Нажмите ESC, чтобы закрыть

Как большие данные меняют науку

Как большие данные меняют науку

Интересной статьёй стоит поделиться:

Теги:

Взлом из-за решетки

Тим Урбан. История под названием «Мы». Глава 0. Вступление

Миф о белизне античных скульптур

Окончательно затягивающий интерфейс порносайтов

Как работает мозг, пока мы лежим на диване

Наука не поспевает за урбанизацией

Интервью с женщиной, которая каждый день держит в руках опасные вирусы

Как французский шпион подарил миру современную землянику

Когда мы на самом деле становимся взрослыми?

Эмоциональная микрофлора

Городская жизнь делает нас несчастными. Как с этим борются в Глазго

Микроглия — мостик между телом и мозгом