Проект Лаборатории информационных технологий ОИЯИ «Центр обработки данных CERN первого уровня для работы с информацией, получаемой с Большого адронного коллайдера» стал победителем конкурса «Проект года», организованным ассоциацией директоров ИТ-компаний России GlobalCIO в номинации «Создание и модернизация инфраструктуры».
Церемония награждения прошла 28 января в Москве, в клубе «Радио сити». Приз был вручен руководителю проекта, директору ЛИТ В.В.Коренькову.
Уникальность ЦОД Tier1 ОИЯИ заключается в том, что он должен работать со стопроцентной надежностью и доступностью, принимать информацию с экспериментальной установки CMS на Большом адронном коллайдере (БАК), обеспечивать ее долговременное хранение и передавать ее по запросам во все центры для обработки и анализа.
Об уникальности назначения и технических характеристик построенного в нашей стране нового ИКТ-объекта, с одной стороны, и о возможном практическом влиянии на российскую ИКТ-отрасль, с другой, научному редактору PC Week/REВалерию Васильеву рассказал директор Лаборатории информационных технологий Объединенного института ядерных исследований Владимир Кореньков.
— Как можно охарактеризовать масштаб управляемого вами ИТ-хозяйства, каковы его наиболее важные характеристики?
— ИКТ-инфраструктура нашего Института состоит из нескольких крупных компонентов: грид-инфраструктура, облачная среда, гибридный кластер для параллельных вычислений, хранилище данных. Одной из масштабных задач является активное участие в обработке, хранении и анализе данных экспериментов на Большом адронном коллайдере в ЦЕРН. Для этой цели была создана и успешно работает более 10 лет глобальная распределенная грид-инфраструктура, которая объединяет около 200 ИКТ-структур в 50 странах мира, в том числе около десяти в России.
Эта инфраструктура была построена на основе иерархической модели, в центре которой находится мощный центр уровня Tier0 в ЦЕРН. Этот центр служит для сбора и хранения огромных потоков данных, которые поступают с экспериментальных установок. Следующий слой глобальной инфраструктуры — центры уровня Tier1, которые получают экспериментальные данные из Tier0 для организации их надежного хранения и передачи по запросам для обработки и анализа центрам уровня Tier2. Центры уровня Tier1 называют фабриками хранения данных, которые должны обеспечить высокие требования к показателям надежности, доступности, скорости передачи. В настоящее время таких фабрик в мире тринадцать, и расположены они в развитых странах (США, Канада, Англия, ФРГ, Франция, Италия, Испания, Нидерланды, Южная Корея, Тайвань и Россия).
В России центр уровня Tier1 был создан недавно на базе НИЦ «Курчатовский институт» и нашей лаборатории в ОИЯИ. В нашей лаборатории ЦОД уровня Tier1 был запущен в эксплуатацию в мае 2015-го для обслуживания эксперимента CMS (компактный мюонный соленоид) на Большом адронном коллайдере. Кстати, на экспериментальных установках CMS и ATLAS был обнаружен бозон Хиггса.
Хранилище данных нашего центра составляет более 5 Пб, размещенных на дисках, и столько же на ленточных библиотеках долговременного хранения. Каждый год мы удваиваем наши ресурсы хранения и вычислений, чтобы соответствовать предъявляемым требованиям со стороны ЦЕРН.
Грид-центры уровня Tier2 (около 200 в 50 странах мира) предназначены для обработки и анализа данных. К ним не предъявляются столь жесткие требования к надежности и количеству ресурсов. Для экспериментов на Большом адронном коллайдере не хватает ресурсов, поэтому ЦЕРН использует также и сторонние ИКТ-ресурсы, в числе которых облачные структуры Amazon и Google, отдельные суперкомпьютеры (например, Titan из Окриджа) и др.
Основным направлением работы нашей лаборатории сегодня является интеграция грид-, облачных ресурсов, суперкомпьютеров и добровольных вычислений, а также организация федеративных хранилищ данных для решения масштабных задач, в том числе для мегапроектов. До сих пор подобные по масштабам интеграционные задачи еще не решались.
Я не знаком ни с одной другой вычислительной инфраструктурой, испытывающей нагрузки, подобные тем, которые выдерживают центры уровня Tier1. Договор с ЦЕРН обязывает нас поддерживать такую надежность, чтобы за год суммарное время недоступности ресурсов Tier1 не превышало четырех минут. Это покруче, нежели 99,99999, — назовите мне еще какие-нибудь ЦОДы, работающие с такой надежностью!
— Ваш ЦОД — объект уникальный и по назначению нетиповой. Насколько полученный вами опыт может быть полезен для отечественной ИКТ-отрасли? Возможно, для России сегодня более важны не уникальные решения, а типовые, которые несложно имплементировать?
— То, что я сегодня вижу в наиболее крупных ИКТ-инфраструктурах нашей страны, представляет собой вчерашний день, в то время как мы могли бы помочь развертывать самые современные ИКТ-решения в интересах экономики, здравоохранения, науки, бизнеса…
В Российском экономическом университете имени Г. В. Плеханова создана лаборатория, в которой мы пытаемся помогать тиражировать используемые нами технологии и наши собственные наработки в области аналитики больших данных и распределенных вычислений. В целом уникальные технологии ЦЕРН активно тиражируются различными странами мира в разных предметных областях.
— ЦОД Tier1 — вроде бы модульный, а строился дольше года. Не многовато ли для модульной конструкции?
— Нам пришлось переделать практически всю инженерную инфраструктуру, поскольку Tier1 строился в том же здании, что и работающий центр Tier2, который нельзя было остановить даже на день. Фактически в том же машинном зале нужно было развернуть другую сетевую инфраструктуру, инфраструктуру бесперебойного электропитания, климат-контроля, не останавливая центра Tier2. Именно подготовка инженерной инфраструктуры отняла основное время, а на создание и настройку систем хранения данных, вычислений, управляющих серверов, ленточного робота ушло не более двух месяцев.
Зато теперь Tier1 хорошо масштабируется, что очень важно, поскольку мы планируем каждый год удваивать мощности его вычислительной инфраструктуры. Для этого мы специально ориентировались на масштабируемые решения. Вполне возможно, что через пару лет у нас будет около 20 Пб дисковой памяти и ленточное хранилище под 30 Пб. Для нас чрезвычайно важно иметь надежные, зарезервированные прямые каналы до ЦЕРН с пропускной способностью до 100 Гбит/с. Поэтому при выборе архитектуры и конкретных решений мы исходили из их перспективности на двадцать — тридцать лет. Прежде всего, это относится к сетевой инфраструктуре и ленточной библиотеке, которые должны легко масштабироваться. В то же время мы готовы менять управляющие серверы, вычислительные серверы, дисковые хранилища через каждые пять лет — по мере их морального устаревания.
— Насколько остро для ОИЯИ стоят задачи обеспечения информационной безопасности (ИБ)? Есть ли у этих задач ярко выраженная специфика (возможно, ОИЯИ следует относить к критически важным инфраструктурам)?
— Конечно, вопросы ИБ для нас очень важны, и мы у себя применяем все распространенные средства ее обеспечения. Большинство наших пользователей подключаются через грид-инфраструктуру (спроектированную в ЦЕРН для обработки больших объемов данных), с помощью которой они объединяются в виртуальные организации — сообщества профессионалов, решающих общие задачи. Например, на Большом адронном коллайдере функционируют четыре крупные экспериментальные установки, и на каждой из них работают 3-5 тысяч пользователей из 50 стран мира. У каждого грид-пользователя есть сертификат, использующий архитектуру открытых ключей. Мы проверяем, имеет ли обратившийся к нашим ресурсам пользователь надлежащий сертификат и в какой виртуальной организации этот сертификат зарегистрирован. По результатам таких проверок пользователи допускаются к тем ресурсам ЦЕРН (в том числе и к нашим), к которым предоставлен допуск данной виртуальной организации.
— Как часто подведомственная вашей лаборатории ИКТ-инфраструктура подвергается целевым атакам?
— В течение суток мы отражаем десятки атак и пока делаем это успешно.
— Какие задачи наиболее остро стоят сегодня в плане повышения эффективности ИКТ-инфраструктуры ОИЯИ?
— Вычислительная архитектура подвержена сегодня очень быстрым изменениям, и нам постоянно приходится обучать пользователей приемам работы с нею. Одной из насущных задач сейчас является перенос накопленных на протяжении многих десятилетий вычислительных алгоритмов и готовых программ на многоядерные и многопроцессорные архитектуры для их распараллеливания, чтобы существенно повысить скорость вычислений. Задача эта сложная, и мировое сообщество специалистов пока только ищет подходы к ее решению.
Кстати, сильное отставание технологий программирования от темпов развития аппаратной базы является общемировой современной проблемой. Так, практически нет программных пакетов, особенно относящихся к физике высоких энергий, которые можно было бы распараллелить на тысячи узлов обработки. В 2018-2020 гг. ожидается появление суперкомпьютера мощностью в эксафлопс с миллиардом ядер, и ясно, что для его эффективной работы необходимо сделать прорыв в технологиях параллельного программирования.
— А что означает для ОИЯИ определенная как актуальная для России политика импортозамещения в области ИКТ?
— Специфика требований к надежности ИКТ-инфраструктуры такова, что предложить нам какие-то заменители очень сложно. Однако если уровень произведенного в стране оборудования будет расти, мы с удовольствием начнем его рассматривать. Но, повторяю, рисковать надежностью мы не имеем права.
В настоящее время мы активно сотрудничаем с китайскими разработчиками ИКТ-оборудования. Но, увы, и их продукция пока не соответствует нашим требованиям. Тем не менее, учитывая темпы, с которыми прогрессируют их технологии разработки и производства, через полтора-два года, надеюсь, мы сможем рассматривать их предложения как альтернативные.
Что же касается импортозамещения в области разработки «тяжелого» научного ПО в нашей сфере, то я высоко оцениваю перспективы нашей страны. Нам только следует объединить усилия для разработки новых технологий программирования, способных эффективно использовать упомянутые мною параллельные вычислительные архитектуры. В стране есть несколько сильных команд, которые вполне могут добиться необходимых результатов в этой области, но для консолидации их усилий нужны политические решения на государственном уровне, поскольку поврозь они вряд ли справятся.