Отечественные сервисы внедряют нейросети для озвучки аудиокниг

Разработчики книжного сервиса «Строки», принадлежащего компании МТС, намерены озвучить более 10 000 произведений с помощью технологии искусственного интеллекта (ИИ) от MTS AI. Также ИИ-озвучку развивают в сервисах ГК «ЛитРес»: «ЛитРес», MyBook и LiveLib.

В МТС отметили, что разработчики пользуются платформой Audiogram на базе нейросети, обученной обрабатывать естественный язык (natural language processing, NLP). Технология синтезирует речь, ставит ударения, делает паузы, а также воспроизводит интонации.

«ЛитРес», в свою очередь, использует сервис распознавания и синтеза речи SpeechKit. На его основе работает голосовой помощник «Алиса» от «Яндекса». Однако, по словам директора департамента по развитию контента группы Евгения Селиванова, пока ИИ не в состоянии заменить диктора. Для корректной работы нейросети необходимо дополнительно делать разметки в тексте, ставить в сложных словах ударения и помогать ИИ воспроизводить правильную интонацию.

В МТС рассказали, что у более чем 90% произведений нет аудиоверсий, а их озвучка традиционным способом может занять не один год. Подготовка начальной версии аудиокниги с помощью нейросети занимает от 30 минут до часа. Студийная запись фонограммы может длиться несколько дней с учетом обработки и монтажа.