Сотрудники МГУ вместе с пермскими и немецкими коллегами смогли перевести в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX века из обсерватории в Цюрихе. В этом им помогла нейросетевая модель, которая способна с высокой точностью читать написанные от руки тексты. В результате авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить представления о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы, поддержанной грантом Российского научного фонда (РНФ), опубликованы в журнале Solar Physics.
Человечество наблюдает солнечные пятна с помощью телескопов уже более четырех веков. В те далекие времена записи велись от руки, а в наше время специалисты занимаются их расшифровкой и оцифровкой. Занятие этим вручную — долгий и трудоемкий процесс, а потому специалисты прибегают к помощи искусственного интеллекта.
В своей новой работе исследователи Московского университета совместно с коллегами из Института механики сплошных сред УрО РАН (Пермь) и Потсдамского астрофизического института имени Лейбница (Германия) занялись переведением в цифровой формат рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе.
«Мы разработали нейросетевую модель, которая с высокой точностью читает рукописный текст. В нашем случае текстом были координаты активных областей Солнца, записанные в таблицы. Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказывает Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.
Несколько особенностей делают модель уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели «в режиме онлайн» адаптироваться под новые стили почерка (наблюдатели, заполнявшие каталог, неоднократно менялись за 30 лет) и особенности страниц. Это позволило значительно повысить точность по сравнению с моделью, которая работает с фиксированными предобученными параметрами.
С помощью разработанной нейросетевой модели удалось впервые оцифровать (прочесть) более десяти тысяч страниц рукописных каталогов по солнечной активности на рубеже XIX—XX веков. В результате удалось восстановить детальную картину положений солнечных пятен, факелов и протуберанцев за более чем 30 лет наблюдений. Это позволит астрономам лучше узнать прошлое Солнца, уточнить представления о характере солнечной активности и особенностях солнечных циклов в историческом периоде.
«В работе нужно выделить два аспекта. Во-первых, опубликован новый детальный датасет, охватывающий более чем 30 лет наблюдений, проводимых Цюрихской обсерваторией (одной из старейших в мире) в конце XIX — начале XX веков. Этот набор данных существенно уточняет наше представление о характере солнечной активности в историческом периоде и теперь доступен для исследования специалистам по солнечной физике. Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоемкой из-за больших объемов текстов», — подводит итог Егор Илларионов.
Информация предоставлена пресс-службой МГУ
Источник фото: Ольга Мерзлякова, «Научная Россия»