3 февраля 2020

Голосовой помощник. Заказать запись

Олег, голос!

Голосовые помощники уже стали привычным и необходимым атрибутом современной жизни. Они умеют многое: отвечать на вопросы, прокладывать маршруты, бронировать места в отелях и ресторанах, совершать покупки. Они способны вести диалоги, иронизировать, мечтать и даже флиртовать. По прогнозам специалистов, через 5-10 лет разговор с роботом очень сложно будет отличить от разговора с живым человеком. Как создаются голосовые помощники и что там нас ждёт впереди?

Родословная Алисы

История голосовых помощников началась задолго до 2011 года, когда компания Apple представила Siri. Одно из первых устройств распознавания речи появилось в 1937 году. В 1962 году IBM создала программу Shoebox, которая умела распознавать 16 слов и 10 цифр. Через десять лет ученые университета Карнеги-Меллон разработали новое решение – их программа располагала словарным запасом трехлетнего ребенка и «знала» 1011 слов. Позже появился Macintosh с технологией PlainTalk. Дальше – по нарастающей.

Сегодня на рынке, кроме Siri, представлены самые разные голосовые помощники. Это Google Assistant, Google Home, Cortana, Alexa. Они связаны не только со смартфонами, но и с системами «умных домов», и со множеством других гаджетов. В России с 2017 года лидирует Алиса от Яндекса. У Алисы есть конкуренты – Маруся от Mail.ru Group и Олег от «Тинькофф Банка». Разработкой голосового помощника занимается также портал «Госуслуги Бизнес». Как видим, конкуренция велика, но в конечном итоге пользователям это только на руку.

Из чего сделана Siri

Голосовые помощники базируются на технологиях синтеза и распознавания речи. Движок представляет собой нейросеть со сложной архитектурой и алгоритмами, которые прописывают различные сценарии диалога.

Что важно знать:

Первый и самый главный шаг – сбор данных для обучения нейросетей.
Данные - это аудиозаписи высокого качества, которые возможно сделать только в студии со сверхчувствительными микрофонами на профессиональном оборудовании, позволяющем учитывать множество сложных технических параметров. То есть записать дома в подвале не получится. Более того, даже региональные аудиостудии далеко не все обладают необходимым оборудованием.
Чтобы сделать качественную запись, нужно провести кастинг и выбрать диктора. В кастинге участвуют десятки, а иногда и сотни человек. Учитывается артикуляция чтеца, тембр и темп речи, особенности его голосового аппарата и многое другое.
Далее записывается первый этап озвучки, которую отслушивают программисты, лингвисты, специалисты по синтезу, менеджмент. Чтецу дают рекомендации, корректируют, если необходимо, произношение, темп, интонации. И только потом начинается рекординг-сессия.
Диктор начитывает огромные массивы текста - минимум 30 часов чистого звучания. При этом крайне важно сохранять заданные речевые параметры на всём протяжении голосовой сессии, которая длится по 3-4 часа.
Полученный звук монтируют, вносят правки, делают дозаписи. И только после этого за дело берутся непосредственно специалисты по синтезу. Перед ними стоит сложнейшая задача – обучить нейросеть распознаванию и синтезу речи на базе обработки огромного массива данных.

Как видим, создание интеллектуального помощника - долгий, трудоёмкий, многоэтапный и очень недешёвый процесс, в котором задействована большая команда специалистов из разных областей.

Вот так выглядят голосовые помощники, записанные в студии Рексквер:

Вопрос: КТО НАПИСАЛ ПОРТРЕТ КНЯЗЯ ГОРЧАКОВА?

РУССКИЙ ЯЗЫК

АНГЛИЙСКИЙ ЯЗЫК

Голосовой помощник. Заказать запись - 2

Голосовой помощник. Мнение

Можно ли самому создать свою Алису «на коленке», как скоро голосовые роботы вытеснят живых людей из соответствующих профессий и чего нам ждать от нейросетей в самом ближайшем будущем? За ответами на эти вопросы мы обратились к Андрею Таланову – ведущему специалисту продуктовой разработки группы компаний «Центр речевых технологий».

- Сравнительно недавно Google и Яндекс предоставили свои платформы синтеза сторонним разработчикам. Означает ли это, что теперь любой желающий сможет создать полноценного голосового помощника?

- Да, действительно, платформы стали доступны. Однако о полноценном синтезе на их базе речи идти не может. Сторонние пользователи могут применять лишь ограниченное количество шаблонов, и эти шаблоны очень легко запомнить и отличить на слух. То есть вы никогда не спутаете синтез Яндекса с синтезом Google. Что-то совсем простое и несложное создать можно. Но если говорить о масштабных задачах, то тут необходимы очень серьёзные технологические ресурсы и шестизначные бюджеты, которые по плечу только гигантам IT-индустрии.

- Уже сегодня компании, специализирующиеся на синтезе, предлагают свой продукт как альтернативу дубляжу, озвучиванию аудикниг и сериалов. Может ли синтез заменить живой человеческий голос?

- Если это и случится, то еще очень нескоро. Для полноценного воспроизведения человеческой речи робота необходимо «обучить» эмоциям, которые напрямую влияют на интонации. Когда интонация не соответствует тексту, это очень сильно ощущается. Другая сложная задача – уметь соотносить синтезируемые фразы с текстом, потому что одно и то же выражение может иметь совершенно разную эмоциональную/интонационную окраску в зависимости от контекста. А если мы добавим сюда множество других характеристик, отличающих живую речь от синтезированной, то придём к выводу, что синтез, способный полностью заменить человеческую речь со всей её палитрой эмоций, чувств, переживаний, интонаций, появится еще нескоро – если вообще появится.

- Можно ли считать, что в будущем синтез приблизится к пониманию человеческих эмоций? Что нас ждёт дальше?

Синтез не то чтобы будет понимать эмоции. Он научится выработке алгоритмов по определенным признакам. Например, если вы говорите громко и резко, то у него накапливается некоторое количество признаков того, что человек недоволен или раздражён. Если говорить об отдалённых перспективах, то мы будем иметь дело с мощными самообучающимися нейросетями, которые вырабатывают свои собственные алгоритмы, на основании которых принимают решения.

- Звучит немного пугающе и смахивает на восстание машин…

- Ну, не всё так страшно. Уже сейчас мы можем наблюдать принцип самообучения – например, в навигаторах. Чем больше с ними общаются, тем лучше они воспринимают речь и тем адекватней дают обратную связь. В будущем это должно выйти на абсолютно новый уровень.

Голосовой помощник. Заказать запись - 3

Синтез и Фемида

При нынешнем уровне технологий искусственный интеллект способен скопировать голос абсолютно любого человека со всеми его тембральными и лингвистическими характеристиками. Останутся ли у известного актёра, шоумена или диктора права на его собственный голос? Защищён ли он законодательно от посягательств роботов, которые фактически могут лишить его заработка?

Комментирует юрист Борис Кузнецов, руководитель проекта «Право Автора»:

- На сегодняшней день такой судебной практики нет, как нет и законодательства в этой области. Пока можно строить только теории, исходя из норм действующего законодательства об авторском праве. Дело в том, что голос как таковой не является объектом авторского права, в отличие, например, от дубляжа (актёрской игры). Если машина просто копирует тембр и другие речевые характеристики, нарушением это не будет. Но если машина использует голос как актёрскую игру, можно предположить, что ответственность за это ляжет на плечи создателя синтеза. Подчеркну еще раз – пока прецедентов не было, поэтому об этом сложно сказать что-то конкретное.

История пишется в RECsquare

Стремительное развитие технологий всё больше напоминает фантастический блокбастер. И чтобы оставаться в авангарде, нужно быстро меняться и буквально на лету осваивать новые тренды. У нас отлично получается шагать в ногу со временем. RECsquare была в числе самых первых аудиокомпаний, вышедших на рынок синтеза.

В 2014 году по заказу “Центра речевых технологий” мы записали данные, которые легли в основу синтеза для «Мегафона», и вот уже шесть лет абонентам сети отвечает голосовой помощник, записанный в нашей студии. Затем мы приняли участие в создании ряда крупных синтез-проектов на российском рынке – провели кастинг дикторов и затем записали базу для нейросетей. Мы озвучиваем книги, дублируем фильмы и сериалы, пишем аудиогиды, создаем рекламу, занимаемся саунд-дизайном, производством рекламных видео- и аудиороликов и многим другим. Не скроем – нам хочется войти в историю. А вам? Если да – приходите!

Заказать запись голосового помощника