Эффективная потоковая диаризация спикеров при перекрытиях речи: новый шаг в аудиоаналитике

28.06.2024 12:30

1487

Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера. Этот метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской конференции ММРО-2023.

Диаризация спикеров – это задача разделения и идентификации участников на аудиозаписи, т.е. процесс определения, кто и когда говорит. Диаризация имеет огромное значение для множества приложений: от транскрибирования речи до автоматического перевода и анализа эмоций. В рамках поставленной задачи состав и даже количество участников не определены заранее, и алгоритм диаризации должен самостоятельно выявить их. Однако можно учесть и специфический случай, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из людей. Соответственно, можно сказать, что разработан метод для решения сразу двух фундаментальных задач: диаризации спикеров и определения активности целевого спикера. Диаризация спикеров заключается в идентификации нескольких спикеров на аудиозаписи, а также в различении сегментов речи, в которых каждый спикер активен. Аналогично задача определения активности целевого спикера направлена на определение непрерывных сегментов речи, в которых активен известный целевой спикер.

Хотя в научной литературе было предложено множество методов, они сталкиваются с существенными проблемами. «Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно», - отметил доцент кафедры математических методов прогнозирования ВМК МГУ Арчил Майсурадзе.

Решая эти проблемы, исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, этот метод выделяется своей универсальностью и эффективностью.

Основные инновации включают:

Обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров.
Оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров.
Адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров.
Потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.

Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.

«В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями», - добавил Дмитрий Попов, студент второго года магистратуры кафедры математических методов прогнозирования ВМК МГУ.

Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.

Источник информации: ВМК МГУ имени М.В. Ломоносова

Источник фото: ru.123rf.com

Разместила Наталья Сафронова