Авторитетный коллектив ученых, состоящий из ведущих мировых специалистов, включающих двух нобелевских лауреатов и профессора биофака МГУ, сформулировал принципы, которым должны соответствовать современные исследования в области молекулярного моделирования биологических систем в эпоху больших данных и искусственного интеллекта. Методы молекулярного моделирования являются незаменимым инструментом для изучения работы живых систем, понимания того, как генетическая информация определяет строение и свойства живых организмов, включая человека, разработки новых лекарств и биотехнологий. В мире 15% ресурсов суперкомпьютерных центров используется для решения подобных задач. Для того чтобы получаемая информация о структуре и динамике биомолекул приносила максимальную пользу, необходимо создание общедоступных баз данных, подобных базам данных генетической информации, которые уже активно развиваются во всем мире. Основные идеи дальнейшего развития области биомолекулярного моделирования, накопления и обмена полученной информацией ученые изложили в статье, опубликованной в апрельском выпуске престижного журнала Nature Methods.

Изучение функционирования живых организмов на молекулярном уровне — одна из ключевых задач биологии XXI века. Несмотря на значительные успехи молекулярной биологии, достигнутые к настоящему моменту, многие детали работы биологических систем на молекулярном уровне остаются непонятыми. К таким деталям в первую очередь относится динамика биологических молекул – понимание того, каким образом они изменяют свою пространственную геометрию, обеспечивая работу живых организмов. Без понимания деталей оказывается сложным объяснить, как генетические вариации влияют на свойства организма, здоровье человека, урожайность растений, патогенность вирусов и бактерий, а следовательно, и разрабатывать новые методы лечения, осуществлять генетическое редактирование, создавать новые биотехнологические процессы и продукты.

Важную роль в понимании динамики биомолекул играют методы компьютерного молекулярного моделирования, в частности, метод молекулярной динамики. Он основан на моделировании взаимодействия атомов на основе базовых физических законов. Около 15% ресурсов суперкомпьютеров во всем мире используется для решения таких задач. В результате расчетов генерируются значительные объемы информации о движении атомов в биомолекулах, которые могут быть соответствующим образом обработаны для ответа на различные биологические вопросы.

Для того чтобы упростить процесс обмена данными таких «вычислительных экспериментов», авторитетный коллектив ученых сформулировал принципы, которым рекомендуется следовать. Статья с описанием предлагаемых принципов опубликована в апрельском номере престижного журнала Nature Methods за авторством 103 ведущих мировых специалистов в области биомолекулярного моделирования, включая двух нобелевских лауреатов Майкла Левитта и Арье Варшела, а также профессора биологического факультета МГУ имени М.В. Ломоносова Алексея Шайтана.

Авторы отмечают, что громкие успехи методов искусственного интеллекта последних лет, например, предсказание структуры белков программой AlphaFold, стали возможными именно благодаря наличию общедоступных баз данных генетической информации и структур биомолекул, которые используются для тренировки алгоритмов. Создание систем обмена данным о динамике биомолекул позволит, вероятно, выйти на новый уровень в предсказании свойств биомолекул. Разработку новых баз данных авторы предлагают вести, учитывая четыре основных принципа. Согласно этим принципам необходимо стремиться к тому, чтобы нужные данные (i) можно было легко находить посредством сети Интернет, (ii) получать к ним доступ, (iii) обрабатывать с помощью различных программных продуктов, (iv) многократно использовать в различных задачах анализа. На английском языке подобные принципы обозначают аббревиатурой FAIR (Findable, Accessible, Interoperable, Reusable). Несмотря на то что данные принципы сформулированы достаточно абстрактно, их конкретная реализация потребует изменения парадигмы, в которой до недавнего времени работали исследователи.

«Обычно после проведения динамических расчетов данные о динамике молекул, если и сохраняются, то остаются в доступе лишь тех ученых, которые провели эти расчеты. В области хранения генетической информации и информации о структуре биологических молекул ученые уже давно выработали принципы единообразного хранения и распространения данных, во многих странах существуют специализированные базы данных и центры хранения информации. Например, базы данных GenBankProtein Data Bank за рубежом, разрабатываемая в России Национальная база генетической информации. Подобные подходы мы стремимся внедрить и для результатов численных экспериментов по динамике биомолекул. Потенциально это может привести к качественно новым возможностям по анализу живых систем, особенно с учетом того, что современные методы искусственного интеллекта могут в автоматизированном режиме анализировать огромные массивы данных», — комментирует Алексей Шайтан.

Создание баз данных, содержащих результаты молекулярного моделирования динамики биомолекул, до недавнего времени считалось нерациональным из-за ограниченных ресурсов для хранения больших файлов. Тем не менее в своем обращении ученые указали на то, что эта позиция уже устарела. Сейчас проведение вычислительно затратных расчетов с нуля, наоборот, потребляет гораздо больше ресурсов, чем хранение информации и ее последующее использование. Кроме того, единая база со встроенными инструментами анализа и контроля качества данных позволила бы отсекать неверные и противоречивые данные, использовать машинное обучение и искусственный интеллект для сравнительного анализа данных.

Сформулированные учеными принципы должны лечь в основу ряда уже разрабатываемых информационных ресурсов и способствовать укреплению сотрудничества между учеными. Аналогичные «честные» (от англ. FAIR: Findable, Accessible, Interoperable and Reusable) принципы сейчас активно внедряются в ряде других областей науки.

Работа коллектива МГУ проводится в рамках Научно-образовательной школы «Молекулярные технологии живых систем и синтетическая биология».

 

Информация предоставлена пресс-службой МГУ

Источник фото: Ольга Мерзлякова / «Научная Россия»