В Санкт-Петербурге разработали инновационную речевую технологию

18 декабря 2019

Петербургские исследователи ведущей российской компании-разработчика инновационных систем в сфере распознавания и синтеза речи «Центр речевых технологий» создали на основе нейронной сети технологию автоматического синтеза речи, которая преобразует любой произвольный текст в речь. Особенность разработки в том, что она способна исправлять ошибки.

При прочтении любого текста на целевом языке новейший синтез речи обеспечивает плавность и выразительность, а также исправление типичных орфографических ошибок. Генерация высококачественного аудиосигнала происходит благодаря сложной модели нейронной сети. Кроме того, технология умеет предсказывать ударения в словах, неучтенных базовым словарем синтеза, за счет наличия специального модуля. В числе преимуществ разработки – произношение, соответствующее нормам языка даже в сложных случаях, которое достигается благодаря способности инновационной технологии к глубокому лингвистическому анализу текста.

Разработанная технология автоматического синтеза речи на данный момент работает на русском, казахском и английском языках. После 2020 года компания планирует развить технологию так, чтобы она практически на 100% имитировала человека – речь с соответствующей интонацией и эмоциями. В число инновационных разработок компании входит также технология распознавания речи – преобразование устной речи в текст, а также языконезависимые технологии.

Развитие технологии синтеза речи

Искусственное производство человеческой речи известно как синтез речи. Эта технология, основанная на машинном обучении, применима к преобразованию текста в речь, генерации музыки, генерации речи, устройствам с поддержкой речи, системам навигации и доступности для людей с нарушениями зрения.

Развитие технологии синтеза речи началось задолго до электронной обработки сигналов. Самые ранние попытки создать синтетическую речь были предприняты в Санкт-Петербурге в 1779 году. Профессор Христиан Кратценштейн объяснил физиологические различия между пятью длинными гласными и создал аппарат для их искусственного воспроизведения. Он сконструировал акустические резонаторы, похожие на голосовой тракт человека, и активировал резонаторы вибрирующими язычками, как в музыкальных инструментах.

В 1930-х годах ситуация улучшилась, когда Bell Laboratories разработал вокодер. Он представлял собой устройство для анализа речи по медленно меняющимся акустическим параметрам, которое затем могло управлять синтезатором для восстановления исходного речевого сигнала.

С тех пор вычислительные мощности стали дешевле и мощнее, а качество технологии синтеза речи постоянно улучшается.

Первая полная система преобразования текста в речь была разработана в Японии в 1968 году. Хотя эта система была монотонной по тону, она была достаточно понятной и могла анализировать текст на английском языке и приближать его к настоящему человеческому произношению. Это приближение к человеческой речи становилось все более точным по мере того, как технологии и программирование становились все более изощренными, особенно за последние 10 лет с использованием нейронных сетей.

Большинство персональных устройств (ноутбуки, смартфоны, планшеты) имеют функцию голосового воспроизведения TTS (text-to-speech), которую можно включить в настройках. TTS помогает людям с нарушениями зрения и чтения, а также людям с особыми образовательными потребностями (дислексия) понимать письменный текст.

Что же дальше?

В ближайшие годы основное внимание будет уделяться повышению качества голоса и обеспечению оптимизации голоса при оптимизации канала.

Важнейшую роль в этом будут играть нейронные сети. Они призваны улучшить качество голоса и внедрить инновационные способы моделирования звука. Кроме того, повышенное внимание будет уделено Voice Experience (VX) - опыту голосового общения. Технологические гиганты, такие как Amazon и Apple, сосредоточены на VX, потому что речевые интерфейсы обеспечивают беспрецедентный уровень контроля над пользовательским каналом. То есть это прямой канал для Amazon и Apple для взаимодействия со своими существующими и потенциальными клиентами. Проблема в том, что без сильного VX все преимущества голоса как канала исчезают. В ближайшие годы основное внимание будет уделяться обеспечению того, чтобы голосовые впечатления были приятными, аутентичными, эффективными и в конечном итоге способствовали росту.

Наконец, эмоциональный голос свяжет все это. В нем будут рассмотрены недостатки, связанные с контекстом, намерением, значением и личностью. Синтетический голос начнет звучать по-человечески.

Речевые технологии прошли долгий путь за последнее десятилетие - всего 10 лет назад основное применение речевых технологий было для автоматизированных телефонных систем. Сейчас технология синтетического голоса находится на грани превращения в повсеместный инструмент, который тесно связан с нашей повседневной жизнью.