Кто такой войс-коуч?
В нашем большом материале о том, как мы записывали голосового помощника Олега для Тинькофф Банка, мы рассказывали, что вместе с нами над проектом работал необычный специалист — войс коуч. Если вы никогда раньше не слышали о такой профессии, то самое время это исправить.
Recsquare: Кто такой лингвист-фонетист и как человек этой специальности помогает делать мир лучше?
Конкретно в сфере речевых технологий это некий посредник между дикторами — поставщиками живого звука — и программистами — поставщиками синтезированного звука. Это работа с людьми, работа с текстом, работа с алгоритмами. Необходимо с той или иной степенью углубленности разбираться в процессах с обеих сторон и анализировать происходящее на всех этапах. Сложно работать с языковым материалом без специалистов, знающих его изнутри на разных уровнях.
Recsquare: Как тексты, похожие по содержанию на бред сумасшедшего, соединяются человеко-машинной системой обучения воедино? Один фрагмент про историю, второй из области физики, третий — вообще шутка. Что это вообще за система? Тестируются ли тексты и сценарии на живых людях?
Именно по той причине, что на этапе записи мы имеем дело в первую очередь с фонетикой, а не с содержанием, дикторам часто приходится читать довольно… своеобразный материал. Мы со своей стороны уже привыкли абстрагироваться от этого, но у остальных участников процесса это вызывает противоречивые эмоции. Наша задача: покрыть максимальное количество разнообразных звукобуквенных сочетаний, интонаций и других фонетических параметров. Под разные нужды приходится подбирать разные тексты, и содержание часто оказывается вторичным.
Recsquare: Как происходит подбор материала для синтеза голосового помощника? Какова роль лингвиста-фонетиста в этом процессе?
Если речь идет о текстовом материале, то, повторюсь, первый запрос к нему — разнообразие во всех смыслах. Далее, по мере того как поступают некоторые запросы от заказчика либо выявляются определенные недочеты в речи того или иного диктора, блок текстов пополняется. Источники текстов бывают самыми разными: это отдельный простор для креатива и веселья. Главное, чтобы материал, полученный из них, решал поставленную задачу. Собственно, подбор текстов — тоже часть нашей работы.
Recsquare: Почему одни голосовые помощники звучат криво (неплавные переходы, роботизированный звук, неверные ударения), а другие звучат круто — например, как «Альф»?
Проблемы встречаются на любом из уровней: они могут начаться на этапе работы с диктором или появиться на одном из многочисленных последующих этапов взаимодействия с полученным сигналом. Важно понять, на каком этапе возникает ошибка. Если она затрагивает нашу сферу деятельности, нужно проанализировать, в чем может быть дело. Ошибка на уровне интонации, на уровне произнесения слова, на уровне звука? Чем именно неестественна интонация? Если то или иное слово в синтезе звучит плохо — скорее всего, проблема шире и диктору стоит дать больше текстов на то или иное сочетание звуков, которое присутствует в данном слове (но может присутствовать и в других). Все очень индивидуально. Однако на российском пространстве мне еще не встречались голоса, вызывающие эффект «зловещей долины». Остается только работать и наблюдать, наблюдать и работать…