Недалеко от Женевы на границе Франции и Швейцарии под землей находится трасса Большого адронного коллайдера (БАК). Это замкнутый круг диаметром около 8486 метров. Именно здесь специалисты разгоняют и сталкивают между собой частицы на скорости 99.9999% от скорости света. Сложные сенсоры считывают всевозможную информацию, полученную после столкновения этих частиц. Как правило, объемы этой информации огромны. Чтобы ее проанализировать специалисты используют не один, не два, а сразу сотни вычислительных центров, суперкомпьютеров и кластеров. Сотрудник Научно-исследовательского вычислительного центра МГУ Мария Григорьева в интервью рассказывает, как специалисты обрабатывают данные и пытаются научить искусственный интеллект аналитике. 

Мария Григорьева – кандидат технических наук, младший научный сотрудник лаборатории вычислительного эксперимента и моделирования НИВЦ МГУ.

— Над чем вы работаете в лаборатории вычислительного эксперимента и моделирования НИВЦ МГУ?

— Мы занимаемся проектами, связанными с аналитикой больших объемов данных, а также разрабатываем системы визуальной аналитики, методы высокопроизводительных вычислений и применения алгоритмов интеллектуального анализа данных. Сейчас мы сотрудничаем с Европейской организацией по ядерным исследованиям – ЦЕРН (CERN), где находится Большой адронный коллайдер. Наша группа работает совместно с российскими и зарубежными коллегами над экспериментом ATLAS. Это один из крупнейших экспериментов в области физики элементарных частиц. Кстати сказать, многие сотрудники Московского государственного университета работают в ЦЕРН над экспериментами ATLAS, CMS, ALICE, LHCb и другими. Коллеги-физики вносят большой вклад в развитие этих проектов.

Наша научная группа имеет опосредованное отношение к физике. Мы занимаемся системами хранения, управления, анализа и обработки данных, полученных в ходе эксперимента. Подобные системы – прекрасный полигон для научных исследований в области компьютерных наук и информационных технологий ввиду своего масштаба и сложности. Вычислительная инфраструктура эксперимента включает более 140 вычислительных центров по всему миру (суперкомпьютеры, университетские кластеры, облачные системы и волонтерские компьютеры). В эксперименте принимают участие более 40 стран и тысячи исследователей, которые ежесуточно выполняют до 2 миллионов различных вычислительных задач. В вычислительных центрах ATLAS обрабатываются огромные объемы данных – сотни петабайт. Совсем недавно система прошла эксабайтный уровень. И объемы данных будут стремительно расти, ведь, как известно, БАК постоянно модернизируется, и соответственно, производит все больше и больше данных.

Одна из важнейших задач компьютерных специалистов в эксперименте ATLAS – обеспечение стабильной и безотказной работы этой масштабной, распределенной и неоднородной вычислительной инфраструктуры. Для этого используются развитые средства контроля и мониторинга: наборы диаграмм, графиков, таблиц и других графических представлений данных, позволяющих отслеживать функционирование всех вычислительных подсистем. Существующие системы мониторинга позволяет физикам, IT-специалистам и системным администраторам наблюдать за выполнением задач физического анализа и обработки данных в распределенной вычислительной среде, анализировать состояние интересующих процессов и подсистем, вовремя отслеживать появление сбоев и неисправностей, пытаясь понять, в чем их причина. В настоящее время эксперимент нуждается в постоянном контроле за всей вычислительной инфраструктурой в режиме 24/7, при этом задействуются десятки специалистов.

Одно из направлений, которое сейчас активно развивается в эксперименте ATLAS – минимизация объема человеческих ресурсов, затрачиваемых на мониторинг. Это направление получило название Operational Intelligence и связано с автоматизацией различных задач мониторинга.

Наша научная группа в рамках данного направления занимается разработкой систем визуальной аналитики, которые

позволяют совместно использовать различные алгоритмы интеллектуального анализа данных и методы научной визуализации.

Например, системы графовой визуализации, которые мы создаем, позволяют отслеживать сетевые маршруты между сотней вычислительных центров и детектировать аномальные сетевые процессы.

Какие это маршруты?

— Например, между двумя крупными вычислительными центрами в Москве и ЦЕРН могут находиться еще несколько. Мы исследуем маршруты, по которым данные передаются между этими вычислительными центрами с помощью графовой визуализации. Разработанную нами систему хорошо приняли в ЦЕРН. Она позволяет оперативно отслеживать возможные сетевые нарушения при передаче данных, искать неоптимальные маршруты, отслеживать такие аномалии как зацикливание сетевых маршрутов.

Другое направление, над которым мы работаем, связано с кластеризацией журнальных файлов. Как уже говорилось, в эксперименте ATLAS выполняется до 2 млн. операций в сутки. Из них около 10-12 % завершаются с ошибками. При этом, генерируется порядка 200 тысяч текстовых сообщений об ошибках. Естественно, человек не в состоянии обработать и проанализировать все эти сообщения. Да и для машинных методов текст, как известно, является далеко не самым удобным объектом для анализа. Мы разрабатываем методы, которые позволяют кластеризовать журнальные файлы,  а именно – текстовые сообщения об ошибках, и выявлять в их огромном количестве не только паттерны, но и аномалии, то есть единичные текстовые сообщения, которые нигде не встречались ранее.

То есть вы пытаетесь научить машину делать то, что делает человек?

— Что касается систем мониторинга и контроля распределенной вычислительной инфраструктуры, то все действия ИТ-специалистов при возникновении той или иной ситуации фиксируются. Когда будет накоплено большое количество зафиксированных шагов, которые выполняет оператор, мы сможем «натренировать» этими данными алгоритмы машинного обучения, и в результате, автоматизировать многие рутинные действия человека. Возможно, вскоре компьютер будет помогать оператору в принятии решений и даже выполнять те или иные операции за него.

Другое направление связано с разработкой специализированной системы мониторинга, которая минимизирует количество графических изображений, необходимых для мониторинга больших объемов многопараметрических данных. Сейчас я, как оператор, изучаю на мониторе одновременно до 10 различных графических представлений данных. Эта работа требует значительных усилий. Одна из разрабатываемых нами систем основана на использовании всего двух интерактивных графиков для исследования данных: трехмерных точечных диаграмм и графика параллельных координат.

Что касается трехмерной визуализации – то она используется уже давно и повсеместно. Любая вычислительная задача в рамках эксперимента ATLAS проецируется в геометрический объект, например в сферу. А параметры этой задачи проецируются в соответствующие координаты. Мы выбираем любые три параметра и отображаем сферу в трех соответствующих измерениях. Тем самым вычислительные задачи могут быть представлены в виде шариков, расположенных в трехмерном пространстве под разными координатами.

Параллельные координаты – это также достаточно старый, но намного менее распространенный и востребованный метод научной визуализации, который позволяет наблюдать тренды всех параметров одновременно на одной картинке. Он не требует построения множества двумерных или трехмерных графиков для каждой пары/тройки характеристик объекта. Вместо этого мы можем исследовать взаимное соответствие множества параметров на одном изображении.

Объединение интерактивной трехмерной визуализации и параллельных координат позволяет оптимизировать работу по выявлению неисправностей и лучше понимать, как функционирует система в целом.

"КОГДА БУДЕТ НАКОПЛЕНО БОЛЬШОЕ КОЛИЧЕСТВО ЗАФИКСИРОВАННЫХ ШАГОВ, КОТОРЫЕ ВЫПОЛНЯЕТ ОПЕРАТОР, МЫ СМОЖЕМ «НАТРЕНИРОВАТЬ» ЭТИМИ ДАННЫМИ АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ, И В РЕЗУЛЬТАТЕ, АВТОМАТИЗИРОВАТЬ МНОГИЕ РУТИННЫЕ ДЕЙСТВИЯ ЧЕЛОВЕКА. ВОЗМОЖНО, ВСКОРЕ КОМПЬЮТЕР БУДЕТ ПОМОГАТЬ ОПЕРАТОРУ В ПРИНЯТИИ РЕШЕНИЙ, И ДАЖЕ ВЫПОЛНЯТЬ ТЕ ИЛИ ИНЫЕ ОПЕРАЦИИ ЗА НЕГО"

Кроме того, наша система визуальной аналитики позволяет использовать различные алгоритмы кластеризации данных и интерпретировать результаты их применения с использованием развитых средств научной визуализации: при этом все объекты на пространственных сценах и параллельных координатах окрашиваются в соответствующие цвета, или меняют свой размер. Изображения позволяют нам выявлять различные корреляции между параметрами или искать взаимосвязи, которые могли быть не видны сразу. Например, с помощью нашей системы можно наглядно увидеть почему вычислительные задачи на одном ВЦ выполняются быстрее и лучше, чем на другом, или понять от каких параметров зависит скорость выполнения задач. Мы можем визуализировать кластерную структуру вычислительных задач для каждого ВЦ для того, чтобы научиться видеть не только цифры или таблицы, но и исследовать различные графические примитивы, их взаимное расположение. Совместное применение алгоритмов машинного обучения и визуализации позволяет раскрыть “черный ящик”, которым зачастую воспринимаются эти алгоритмы, и лучше понять их результаты.

— Как это улучшит работу ЦЕРНа?

— Специалисты ЦЕРН заинтересованы в исследованиях, которые позволяют оптимизировать их рутинные операции. Сотрудники постоянно работают над развитием и усовершенствованием систем мониторинга, хранения и передачи данных. Есть подразделение, которое занимается непосредственно вопросами анализа данных, прогнозированием.

Они всегда смотрят вперед, потому что знают, что объемы данных будут расти экспоненциально. Сама вычислительная инфраструктура будет расширяться и потребуется больше вычислительных ресурсов.

С развитием современных методов машинного обучения и нейронных сетей нам интереснее работать с системами прогнозирования, которые будут фиксировать действия операторов и предсказывать их действия в будущем.

— Какие главные задачи нужно решить, чтобы приблизиться к цели?

— На самом деле речь идет о целом комплексе задач, над которым работают разные группы специалистов. Есть десятки различных проектов, связанных с развитием систем аналитики и мониторинга.

"СЕЙЧАС УЖЕ НЕ ТО ВРЕМЯ, КОГДА ЧЕЛОВЕК МОЖЕТ ПРОДУКТИВНО РАБОТАТЬ С ИНФОРМАЦИЕЙ БЕЗ ПРИВЛЕЧЕНИЯ МАШИННЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ И ВИЗУАЛИЗАЦИИ" 

Так, одна из наших задач – анализ текстовых сообщений из журнальных файлов. И нам удалось обнаружить набор методов, которые действительно позволяют с высокой точностью кластеризовать сообщения об ошибках, а также выявлять аномалии. Когда мы научимся эти сообщения об ошибках разбивать на кластеры, то поймем, на каких вычислительных центрах они происходили, при каких условиях и т.д. А это, в свою очередь, позволит нам прогнозировать подобные сбои в будущем и пытаться их избежать. 

— Что необходимо сделать сейчас, чтобы ускорить работу в рамках проекта?

— Сейчас уже не то время, когда человек может продуктивно работать с информацией без привлечения машинных методов анализа данных и визуализации. Поэтому для ускорения развития наших проектов необходимы вычислительные ресурсы, привлечение специалистов по анализу данных и разработке систем визуализации. И конечно, сотрудничество с крупнейшими научными центрами, такими как ЦЕРН, очень перспективно для развития прорывных компьютерных технологий, так как именно масштабы международных научных экспериментов позволяют ставить самые амбициозные задачи для развития компьютерных наук и технологий.