Для автоматизированного распознавания речи и создания субтитров в видео, шоу, клипах и прочем контенте сервис «VK Видео» внедрил новые алгоритмы искусственного интеллекта. Это привело к 25-процентному улучшению точности анализа и расшифровки. Нейросети теперь уже способны распознавать многие имена собственные, аббревиатуры, профессиональные термины и даже мемы.
Процесс перевода речи в текстовые субтитры осуществляется автоматически с помощью моделей машинного обучения, которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Высокая точность текста достигается благодаря нескольким этапам обработки аудиопотока. На первом нейросеть удаляет посторонние шумы, распознает речь и преобразует её в текст. Затем модели пунктуации и денормализации превращают этот текст в читаемую и понятную форму. На последнем этапе происходит синхронизация текста с аудиодорожкой.
Нейросети быстро обучаются, и в ближайшем будущем они смогут различать реплики разных спикеров, что значительно упростит восприятие и чтение субтитров.
На данный момент 11 % аудитории «VK Видео» пользуется функцией субтитров. В течение последнего месяца количество пользователей этой функции возросло на 28 %. Эта технология особенно востребована среди людей с нарушениями слуха и удобна для тех, кто по разным причинам не может включить звук при просмотре видео.
Источник: CNews