– Арутюн Ишханович, исполнилось 70 лет информационным технологиям в России, и этой теме будет посвящена организуемая вашим институтом конференция. Что там ожидается нового, интересного?
– Действительно, 22-23 ноября состоится конференция, посвященная 70-летию IT в нашей стране. Для меня это особенно важно, как и для института, который я возглавляю, потому что в 1948-м году был создан (Институт точной механики и вычислительной техники, из которого, по сути, выросла школа академика С.А. Лебедева. А Виктор Петрович Иванников, основатель института, имя которого он сейчас и носит, был учеником Лебедева. Мы все наследники этой 70-летней истории, в течение которой непрерывно производились новые технологии, чтобы обеспечить конкурентоспособное развитие страны. И одним из величайших достижений школы академика Лебедева стала машина БЭСМ-6, которая получила всемирное признание, и сейчас её можно увидеть, например, в Музее науки в Лондоне. Причём стоит она рядом с лучшим мировым аналогом из семейства CDC, американской машиной. Мы развивались в рамках физтеховской модели, в Новосибирске её называют «треугольником Лаврентьева», – это интеграция образования, науки и передовой индустрии. То есть инновации, о которых сейчас так много говорят, нам были знакомы уже давно. И, собственно, на конференции как раз пойдёт речь о наших современных инновационных технологиях.
– Увидела у вас на сайте, что в вашем институте колоссальное количество собственных разработок и проектов. Честно говоря, даже не дочитала до конца, так их много. Может быть, расскажете о самых-самых?
– Каждые 5-10 лет технологические акценты меняются, а сейчас это иногда происходит даже быстрее. Последние десятилетия одним из таких важнейших акцентов стало обеспечение кибербезопасности систем с сохранением их конкурентоспособности в экономическом смысле. Наш институт использовал свой бэкграунд для того, чтобы создать такие технологии, как Svace. Это ключевая технология в жизненном цикле разработки безопасного ПО. Мы гордимся тем, что мы прошли этот путь от идеи до внедрения, и сейчас в компании Samsung и ряде наших отечественных компаний используется именно Svace. Кстати, во время конференции мы подпишем соглашение ещё и с компанией «РусБИТех» − о передаче им лицензии и внедрении этой технологии.
Другим примером является анализ бинарного кода, когда у вас нули и единицы, а исходного кода нет, но вам все равно нужно найти в нем дефекты или восстановить архитектуру алгоритма. Наши технологии ТРАЛ и Anxiety позволяют делать это даже в условиях, когда анализируемый код сопротивляется такому анализу. Они тоже внедрены в ряде компаний.
Ещё одно направление связано с извлечением смыслов из больших данных, в которых мы сейчас живем. Это уникальная технология Texterra, дающая возможность извлечения семантики из текстов. Она точно так же прошла путь от идеи до внедрения, и сейчас используется, в компании Samsung и ряде наших отечественных компаний.
– Для чего нужно извлекать семантику из текстов?
– Это может быть нужно, например, если у вас есть большие коллекции документов. В крупных компаниях часто возникает необходимость связать их друг с другом, но это вообще невозможно осуществить практически. Тем более, если идёт поиск по ключевым словам, потому что возникает проблема информационного шума. Кроме того, Texterra используется в другой нашей технологии под названием Talisman, которая направлена на анализ социальных сетей. Без такого хитрого анализа текстов это нельзя сделать вообще, потому что в социальных медиа люди общаются на сленге, и сленг этот очень быстро меняется. Лобовые способы анализа текстов не работают, и нужны новые подходы, связанные, в частности, со статистикой. Мы это умеем делать, а самое главное, всё это не просто научная разработка, а технология, которая внедряется и используется в реальной жизни.
– Когда вы создадите технологию, когда машина будет эффективно переводить расшифровку интервью во внятный текст? Мы будем вашими первыми клиентами.
– Это уже существует, хотя и не в самом совершенном виде. Это дальнейшее развитие технологии, интеграция наших подходов, связанных с анализом текста, потому что это не просто извлечение семантики, но и возможность корректировать текст. Например, когда мы говорим, то часто допускаем ошибки, повторы, разрывы. Как это поправить и выдать более-менее правильный, гладкий с точки зрения семантики текст? Ну, например, звонит человек в колл-центр и говорит, что он хочет. Как правило, он говорит не всегда так, что его можно понять. Особенно, если он волнуется. Даже оператору не всегда это понятно. Даже если у вас есть набор ответов, трудно понять, какой ответ ему надо дать. Это нетривиальная задача, которая в целом еще пока не решена. Но в принципе подходы к ней уже есть, и я вижу, что при определенных усилиях это можно сделать.
– Иначе говоря, в колл-центрах будут работать машины, помогающие людям?
– Это уже постепенно происходит. Главная цель – не полностью автоматизировать колл-центр, а сделать так, чтобы человек вовлекался в последнюю очередь в самых критических случаях.
– Какие у вас еще есть разработки?
– Разработок очень много. Например, есть технологии, связанные с инфраструктурой больших высокопроизводительных центров вычислений. Скажем, технологии, связанные с разворачиванием облачных инфраструктур, и здесь мы стараемся максимально использовать открытое программное обеспечение, как и во всех наших разработках. Я считаю, что это ключевое направление, в рамках которого можно обеспечить технологическую независимость страны, компании. Мы базируемся на коде OpenStack, но у нас есть и собственная разработка, которая уже сейчас проходит внедрение в рамках нескольких НИОКР. Я думаю, в ближайшее время мы ее оформим в виде продукта, который будет зарегистрирован в Госреестре, как и все остальные наши технологии.
– А в чем оригинальность этой разработки?
– Оригинальность – в том, что она обеспечивает разворачивание реально масштабируемых больших центров обработки данных, географически распределенных, которые сейчас в мире доступны в виде сервиса. Amazon, Microsoft или Google тоже все это предоставляют, но в большинстве случаев вы не можете позволить отдавать свои данные в чужой дата-центр. Вам нужно все это развернуть отчуждаемо в своем дата-центре, и вот это мы умеем делать. Наверное, это самая главная составляющая.
– Где будут находиться эти дата-центры?
– Они могут быть где угодно, в любой точке мира, это зависит от заказчика. Человек, находящийся в любой точке мира, может иметь туда доступ. Кроме того, можно организовывать закрытые каналы. Дальше это уже вопрос организационный, а не технологический.
– Мы сказали об уже состоявшихся проектах. Расскажите о проектах, которые вы только замышляете.
– Те проекты, о которых я рассказывал, решают какие-то отдельные задачи. А сейчас перед нами всеми стоят глобальные вызовы, и нужно решать комплексные задачи. Ну, например, программное обеспечение тоже стало большими данными. Речь о сотнях миллионов, миллиардах строк кода, в которых появляются тысячи ошибок, и нужно быстро их исправить, а человекоресурсов уже не хватает. Из-за этого компании задерживают выпуск новых телефонов, например, на несколько месяцев, на полгода. Это принципиальная проблема у всех компаний. Значит, нужны технологии, умеющие работать с этим объемом и решающие все эти задачи. И тут мы сразу оказываемся перед проблемами машинного обучения. Я не люблю говорить «искусственный интеллект», но это методы, применимые в software engineering. Это серьезный вызов, потому что это непознанная территория, и непонятно, какие результаты там могут быть. Но это задача, которую мы должны решать.
Другое направление, еще более сложное, – это интеграция наших технологий анализа текстов с анализом программ. Например, при помощи технологии анализа текста мы могли бы смотреть, что происходит в мире с точки зрения кибербезопасности, находить эти сценарии и автоматически проверять, насколько они действительно опасны. Эта задача даже в постановке пока не прозвучала. По крайней мере, я не встречал её в открытых публикациях. А мы уже этим занимаемся. Или, например, у вас есть исходный язык (C или С++) и вы его превращаете в нули и единицы. Тот, кто превращает, − это среда сборки, компилятор. И он устроен таким образом, что вносит в бинарный код уязвимость, которой в исходном коде нет. А вот как сделать, чтобы этого не происходило? Тоже задача по сути не решаемая, но мы этим фундаментально занимаемся. Хотя все в процессе и еще не превратилось в продукт, про который можно было бы сказать: «купите».
– А почему, интересно, вы не любите говорить «искусственный интеллект»? Это не интеллект?
– С моей точки зрения, пока еще нет.
– А вообще возможно создать искусственный интеллект?
– Речь идет о том, что, когда возникает большой массив данных, то даже переводчик Google работает на статистике, на опыте. Можно сказать, что это искусственный интеллект? В каком-то смысле, да. Но если мы хотим исправить ошибку в коде, если у вас миллионы программистов что-то делали, можно ли на их опыте обучиться? Не знаю. Никто не знает, что будет, когда ситуация изменится. Последние пару лет очень много публикаций, связанных со следующим явлением: на полной скорости едет машина, которая обучалась и по всем меркам умеет распознавать все знаки. И вдруг перед ней знак о том, что проезд запрещен. Если на этот знак нанести определенным образом краску, система обучения ломается, и машина на полной скорости может выехать на перекресток. То есть, можно взломать систему, которая является черным ящиком. Там нет такой глубокой математики, которая бы доказала, что так сделать не получится. Поэтому пока рано говорить об искусственном интеллекте.
– Многие люди, которые этим занимаются, говорят о том, что в принципе невозможно создать искусственный интеллект, поскольку интеллект человека не алгоритмичен, в отличие от машины.
– Это очень сложный вопрос, и мы рискуем уйти в философию, а я все-таки хотел бы рассказать еще немного про технологии. Например, про формальную верификацию. У нас работает целый отдел, где ребята разрабатывают технологии, которые связаны с так называемой дедуктивной верификацией. Вот как доказать, что в коде нет ошибок? Известно, что это очень сложно и дорого. На 10 000 строк кода, например, нужно написать 200 000 других строк кода. И эти строчки очень дорогие, потому что пишут их очень дорогие специалисты со сложной подготовкой. Но для критических систем, где действительно нужно несколько тысяч строк в космос или ещё куда-то отправить, это имеет смысл. Или когда вам нужно доказать корректность самой модели безопасности. Для этого мы разработали уникальную технологию верификации таких моделей, которую уже внедрили в компанию «РусБИТех», благодаря чему они прошли сертификацию ФСТЭК (Федеральная служба по техническому и экспортному контролю). Сейчас мы делаем то же самое для компании «Базальт», для другой платформы, и они тоже пройдут сертификацию ФСТЭК. Это такие технологические жемчужины, создающие современный научный сервис, и представить себе безопасность на высоком уровне без них очень сложно.
– Когда идешь в ваш институт, ожидаешь чего-то ультрасовременного, сплошной техники стиля хай-тек, где чуть ли не роботы тебя встречают. А здесь обстановка старинного особняка, замечательно и уютно. На стене пейзаж в классическом стиле. Это же Грабарь?
– Эту картину нам подарили ребята из HP. Это оригинальная технология, которой они пользуются, когда картина оцифровывается при помощи специальных сканеров, а потом печатается на холсте, не на бумаге. Если подойти, рукой потрогать, то там даже мазки чувствуются. Это не просто принт. На холсте всё очень приближено к оригиналу.
– Выходит, вы всё-таки не изменяете себе и следуете самым современным технологиям?
– Вы знаете, я думаю, что традиции тоже очень важны. 70 лет – возраст солидный. Мы должны сохранять традиции, но быть при этом самыми передовыми и конкурировать с лучшими мировыми центрами. Доказательством того, что это уже действительно так, для меня является очень простой критерий: когда я иду по коридору института, меня встречают молодые ребята. 80% института – это молодежь.
– А где вы их берете?
– У нас три кафедры. Я заведующий кафедрой в трех ВУЗах: на факультете ВМК в МГУ, на факультете управления и прикладной математики в Физтехе, а также на факультете компьютерных наук в Высшей школе экономики. Но мы берем их и из других университетов. Из Бауманки к нам приходят, из МАИ, МИФИ. Из регионов талантливая молодежь попадает к нам через магистратуру и аспирантуру, ведь сейчас двухуровневое образование. Так формируется костяк института. Примерно 70% наших сотрудников – это наши бывшие студенты, которые окончили какой-то из этих ВУЗов. Опять же – преемственность. Я говорил об интеграции науки с образованием – это важнейший компонент. Когда молодые ребята встречаются с качественными проектами и деньгами, на выходе получается как раз то самое сочетание технологий и кадров. Одно без другого в нашем мире уже не бывает. Чем более продвинута технология, тем больше инноваций требуется вокруг. Если вы год ничего не делаете – вы отстали. А через два года можно вообще выбросить ваш продукт и забыть про него. Чтобы сохранить этот темп, нужна хорошо подготовленная молодежь. Поэтому к нам они приходят из лучших ВУЗов.
– А это правда, что вы даже отдыхать все вместе ездите?
– Наш учитель академик Иванников завёл такую традицию. Мы объездили полстраны, иногда ездим даже составом до двухсот человек. Например, в Армению. В монастыре Хор Вирап даже установлен хачкар – каменный крест, посвященный Иванникову. Это дань уважения нашему ученому. И это не просто широкий жест, ведь в Ереване успешно работает лаборатория нашего института, под нашим научным руководством. В России такая лаборатория есть в Великом Новгороде, вскоре должны появиться на Дальнем Востоке и в Сибири... И везде у нас доброжелательная, гостеприимная атмосфера. Всегда есть хороший кофе и «Боржоми». Эту традицию тоже завел Виктор Петрович, и мы от нее не отказываемся. Кстати, хотите кофе?