Как озвучить сериал за 5 минут?

С ЧЕГО ВСЕ НАЧАЛОСЬ
Летом 2021 года на ютуб-канале Яндекса появился плейлист с несколькими видео на английском языке с русским закадровым переводом. Одновременно с этим в корпоративном блоге компании и ряде Интернет-изданий появились статьи о новой технологии, позволяющей смотреть любые иностранные видеоролики с русской озвучкой. Фокус в том, что закадровый аудиоперевод генерируется в режиме реального времени.
В сентябре Яндекс сделал технологию общедоступной, «зашив» ее в десктопную версию Яндекс.Браузера и в мобильное приложение для Android и iOS. С этого момента пользователи интернета разделились на два лагеря: одни называют технологию революционной, другие — не верят в возможности нейросетей и отстаивают традиционные форматы дубляжа.
КАК ЭТО РАБОТАЕТ
Чтобы делать выводы о будущем новой технологии Яндекса, надо разобраться с тем, как в ней устроен процесс перевода и озвучки.
Распознавание речи
На первом этапе иностранную речь трансформируют в текст. Иногда эта процедура упрощается, если в видео зашиты оригинальные субтитры.
Редактура
Нейросеть убирает словесный мусор, ремарки, выстраивает синтаксис.
Перевод
В процессе перевода текст распределяется «по ролям»: женским, мужским, детским.
Озвучка и совмещение с видеорядом
Самый сложный процесс — совместить переозвученный русский текст с артикуляцией персонажей, говорящих на другом языке. Нейросеть выполняет процедуру, которая у профессиональных переводчиков называется «липсинк», то есть «синхронизация губ».
Весь комплекс происходит в считанные минуты, после чего пользователь получает дублированный видеоролик.
В процессе переозвучки видео применяются собственные технологии Яндекс по распознаванию и синтезу речи, переводу и биометрии. Кстати, женские персонажи в русской озвучке говорят голосом Алисы - помощника Яндекса.
В ЧЕМ ПОДВОХ
Понять восторги пользователей интернета по поводу новой технологии легко: в России большой популярностью пользуется всевозможный видеоконтент на английском языке — от выступления бизнес-тренеров до сериалов на Нетфликсе. А воспринимать иностранную речь, одновременно читая субтитры и пытаясь уловить суть, бывает достаточно трудно. Возможности онлайн-перевода, казалось бы, решают эту задачу. Но это только на первый взгляд.
Чтобы понять уязвимость новой технологии, достаточно заглянуть в мастерскую профессиональных переводчиков и специалистов по дубляжу. Подробнее о деталях процесса можно прочитать в нашем блоге, а пока остановимся на нескольких важных нюансах.
Драматургия текста
Увы, но нейросети пока еще не в состоянии оценивать весь текст целиком, логику повествования или развития сюжета, и распознают только звуковые колебания голоса. Иными словами, роботу все равно, что происходит на видео — драма или комедия, лекция или ток-шоу. Для него это всего лишь информация, которую надо преобразовать из одного формата в другой.
Тонкости языка
Не умаляя возможности современных онлайн-переводчиков, следует признать, что в отдельных случаях без помощи носителя языка или профессионального переводчика не обойтись. Это касается специализированной сложной лексики, например, технической или научной, идиоматических выражений, сленга. Любая ошибка в трактовании лексических особенностей оригинала может привести к искажению смысла, будь то сюжетная линия фильма или выступление министра обороны США.
Сила восприятия
Видеоконтент рассчитан не только на визуальное восприятие, но и на звуковое воздействие на зрителя/слушателя. Послушайте лекции TEDна английском языке, а потом попросите знакомого перевести общий смысл. Вы удивитесь, как часто выступающий делает ставку именно на голосовое эмоциональное восприятие своего текста аудиторией - иногда в ущерб фактуре и смыслу. Технологии синтеза речи далеко шагнули в плане воссоздания женских и мужских голосов, но до реальных человеческих интонаций им пока еще далеко.
Синхронизация персонажа
Несмотря на заверения разработчиков, слабо верится, что нейронная сеть в состоянии проделать за несколько минут работу, которую профессиональные актеры дубляжа, звукоинженеры, режиссеры делают в студии часами.
К этому мнению присоединяется вторая группа интернет-пользователей, для которых более привычным и понятным остается традиционный просмотр видео на языке оригинала с русскими субтитрами.
И ВСЕ-ТАКИ ПРИГОДИТСЯ
Как и любая другая технология, новинка от разработчиков Яндекса хороша там, где от нее будет максимальная польза. Если мы говорим о видеоконтенте, то это та его часть, где важна информация, фактура, а не интонации, эмоция, игра.
Широкое применения онлайн-озвучка может получить, например, в туристической сфере. Видеогиды, обзоры, путеводители — все это форматы, в которых пользователя волнует конкретная информация, а не игра актеров дубляжа. То же касается и новостных выпусков на английском языке. Сложно представить, чтобы зритель требовал от русского перевода точного интонирования иностранного диктора.
То же касается и многих других сфер, регулярно поставляющих контент утилитарного характера: кулинарные рецепты, фитнес-инструкции, обзоры гаджетов, книжные рецензии. Можно предположить, что с расширением линейки иностранных языков и платформ видеоконтента, доступных для интеграции с технологиями Яндекса, аудитория нового продукта будет расти.
Сравнивая новую технологию с традиционными формами дубляжа, можно провести аналогию: если вам надо доехать из одной точки в другую, можно воспользоваться городским автобусом, а если вы хотите получить удовольствие от поездки — лучше выбрать кабриолет с откидным верхом. Поэтому, выбирайте лучшее. Выбирайте «Рексквер».