Топ-17 синтезаторов речи. в какой программе озвучить текст

Синтезатор речи Google для озвучки текста

Приложение от Гугл заранее встраивается во многие телефоны с операционной системой Android. Однако он необязательно ставится в качестве используемого по умолчанию синтезатора. Поэтому пользователь может не догадываться о том, что у него уже есть эта программа.

Как скачать синтезатор Гугл для озвучки различных текстов женским голосом:

  1. Зайдите в «Настройки».

    Настройки на смартфоне Android

  2. Откройте «Специальные возможности».

    Нужная клавиша выделена серым

  3. Выберите пункт «Синтез речи».

    Переход к скачиванию ПО для синтеза речи

  4. Нажмите на значок шестеренки.

    Переход в дополнительные Настройки

  5. Тапните по строчке «Установка голосовых данных».

    Клавиша для перехода к загрузке электронных чтецов

  6. Выберите язык. Нажмите на символ загрузки, нарисованный в виде направленной вниз стрелки.

    Кнопка загрузки

Что делать дальше:

  1. Откройте программу TalkBack. Если у вас ее нет, отправляйтесь на Google Play и скачайте ее.

    Как перейти к работе с Talkback

  2. Тапните на клавишу в правом верхнем углу, чтобы попасть в «Настройки».

    Включение и Настройки TalkBack

  3. Затем нажмите на «Возобновить работу».

    Переход к настройкам вызова Talkback

  4. Выберите активацию одним нажатием.

    Тумблер для включения быстрого запуска

  5. Затем переходите к Управлению жестами и задавайте нужные настройки.

    Какие движения или их комбинации могут вызывать диктора

Как преобразовать текст в женский голос с использованием ПО от Google:

  1. Зайдите на страницу «Язык и Ввод».
  2. В разделе «Речь» выберите строчку «Преобразование текста».
  3. Посмотрите, что стоит у вас в графе «Предпочитаемый модуль».

Скачать программу можно с Google Store. Синтезатор речи от Гугла используется для:

  • Зачитывания книг из магазина Google Play.
  • Озвучивания слов и фраз в Гугл Переводчике.
  • В качестве дополнительного синтезатора в приложениях-читалках, выложенных в Google Market.

В такого рода программах озвучку от Гугл нужно обычно устанавливать вручную. Зайдите в настройки приложения и найдите наиболее подходящий вариант.

Ещё немного о стандартах голосовых движков

Что относится к имеющимся сегодня основным стандартам голосовых движков, то ныне наиболее распространены два из них – SAPI 4 и SAPI 5 («SAPI» это аббревиатура от «Microsoft Speech API» — в переводе «Интерфейс программирования речи от Microsoft»). SAPI 4 является устаревшим стандартом, созданным ещё в 1998 году, ныне применяется мало, SAPI 5 – более современен, обладает более качественным произношением, последняя модификация — SAPI 5.4 (при этом у SAPI 5 бесплатных голосов меньше, нежели у устаревшего SAPI 4).

Что до программ синтеза речи, то одна из наиболее популярных из них — «Govorilka», позволяет довольно качественно озвучивать объёмные тексты, причём различными вариантами голосов (как мужских, так и женских). В инсталляционной версии продукта обычно находится комплект из нескольких встроенных голосов, если же читателю их будет мало, то на сайте программы можно скачать дополнительные голоса к ней (в том числе качественные платные варианты).

Интерфейс программы Govorilka

Сервис Fromtexttospeech для воспроизведения голосом вашего текста

Последнее приложение, о котором мы хотим рассказать – это Fromtexttospeech. Начнем с того, что ограничения по количеству символов здесь самые лояльные – до 50 000. Это серьезное конкурентное преимущество, но давайте разберемся, обладает ли Fromtexttospeech еще какими-либо явными достоинствами.

Алгоритм работы программы примерно такой же, как и у Acapela:

  • настраиваем параметры синтезатора речи онлайн: язык, тембр и скорость;
  • нажимаем «Create Audio File»;
  • скачиваем или просто прослушиваем готовый файл.

Итак, пробуем. Копируем несколько предложений своей статьи и вставляем на fromtexttospeech.com. Чуть ниже рабочей панели высвечивается количество знаков, которые мы еще можем дописать.

Очень удобно, что есть возможность выбирать скорость начитки: медленная, средняя, быстрая и очень быстрая

Дальше выбираем язык. Помимо русского, здесь также доступны английский, французский, немецкий, итальянский, испанский и португальский. Почти для всех предлагают несколько вариантов озвучки.

Больше здесь настраивать нечего, так что переходим к самой процедуре конвертации в аудио. Этот процесс занимает несколько минут (в зависимости от размера файла), после чего в отдельном окне можно будет оценить результат работы.Возможность сохранить получившийся аудиофайл на компьютер – очень удобная функция, которая отличает этот сервис от многих других

Подводя итоги, стоит сказать, что все рассмотренные нами сервисы очень индивидуальны и имеют свои особенности. Если вас интересует профессиональное озвучивание, то Акапела отлично подойдет для этих целей. На официальном сайте программы вы сможете протестировать ее работу, оценить звучание и функционал, чтобы принять решение о покупке полноценной версии. Если же вопрос качества для вас не слишком важен, выбирайте старый добрый Гугл Переводчик или Fromtexttospeech, которые позволяют бесплатно преобразовывать большие текстовые файлы в аудио.

Послушать, как звучат фрагменты одного текста в исполнении различных голосовых движков, можно в нашем видео.

Перечень сервисов для голосовой озвучки текста

При разборе сервисов для воспроизведения текстов важно понимать, что идеального «человеческого» звучания от таких программ вы не добьётесь. Синтезатор речи часто неверно расставляет ударение, пробелы между словами бывают слишком короткими или слишком долгими, выбирается некорректная интонация и так далее

Платные озвучки обычно выше качеством, и часто позволяют воспроизвести текст в рекламных целях лишь ограниченное число символов (к примеру, текст до 200-300 букв). Бесплатные, соответственно, могут не иметь таких ограничений, но и качество воспроизводимых ими голосов может быть сомнительным.

Oddcast.com – позволит прочитать текст голосом онлайн на любом языке

Англоязычный сервис oddcast.com может похвастаться имеющимися в его функционале тремя русскими голосами (Dmitri, Milena, Olga), а также приятной визуальной составляющей. При этом воспроизводимые сервисом голоса звучат довольно роботизированно, ударения в словах часто ставятся невпопад. Количество бесплатно воспроизводимых предложений ограничено парой сотен символов (за большее придётся доплачивать).

Чтобы озвучить необходимый текст, нужно проделать следующие действия:

  1. Запустите oddcast.com, в опции «Language» выберите «Russian».
  2. В опции «Voice» выберите один из представленных голосов.
  3. В окне «Enter text» введите ваш текст.
  4. Затем нажмите на кнопку «Say It» для прочтения слов голосом.

Rapidtables.com – бесплатный синтезатор речи

Сервис rapidtables.com позволяет озвучивать слова в среднем качестве. Среди представленных на ресурсе языков имеется и русский женский голос, который неплохо читает представленный пользователем текст. При этом тембр звучит несколько «замогильно», и чутких к эстетике пользователей такое звучание вряд ли порадует. Запускать сервис лучше на браузере Chrome. Ограничений по объёму читаемого текста на ресурсе не выявлено.

Для воспроизведения нужно:

  1. Перейти на rapidtables.com.
  2. Кликнуть на стрелочку рядом со строкой «US English» и выбрать «русский».
  3. Затем вставить в окно нужный для прочтения текст и нажать «Play».

Ispeech.org – воспроизведение предложений онлайн среднего качества

Ispeech.org – ещё один средний по качеству ресурс для прослушивания голосового звучания слов и предложений. Бесплатный функционал сервиса ограничен 150 символами, имеется поддержка более 20 языков с возможностью выбора мужского или женского голоса. Чтение текста находится на среднем уровне. Сервис часто неверно выбирает интонацию и темп.

Инструкция довольно проста:

  1. Запустите ispeech.org.
  2. В окне языков выберите «Russian».
  3. Справа введите ваш текст и нажмите на «Play».

Naturalreaders.com – англоязычный робот

Сервис naturalreaders.com не имеет поддержки русского языка, зато довольно неплохо воспроизводит английский, немецкий, французский, испанский, итальянский и другие языки. Бесплатный функционал сервиса включает 20 минут бесплатного озвучивания в день, поддержку различных текстовых файлов, различные голоса воспроизведения.

Чтобы воспользоваться программой, нужно:

  1. Запустить naturalreaders.com.
  2. Вставить текст в форму ниже.
  3. Выбрать язык и нажать на «Play».

Ttsreader.com – достойный уровень виртуальной озвучки

Как и в случае уже упомянутого ранее rapidtables.com, сервис ttsreader.com лучше запускать на Хром – в данном браузере ресурс работает более стабильно. Здесь нет ограничений по длине текста, имеется два варианта русского голоса («Россия G**» и «Россия Microsoft Irina Desktop»), а само прочтение текста находится на достойном уровне.

Для озвучки нужно:

  1. Выполнить вход на ttsreader.com.
  2. Выбрать один из представленных вариантов русских языков.
  3. В соответствующее поле внести текст, рядом выбрать скорость произношения (normal speed – нормальная, fast – быстрая, slow – медленная и др.), а затем нажать на кнопку «Play» (со стрелочкой) чуть выше.

Онлайн сервисы озвучивания текстов

В сети можно найти десятки различных онлайн сервисов для озвучивания текстов. Большинство их них иностранные, но встречаются и русские. Лидерство в этой области нужно отдать двум монстрам: Яндексу и Google.  Именно они дальше всех продвинулись в области технологии TTS – text-to-speech.

Убедиться в этом можно, открыв онлайн переводчики этих сайтов. Озвучка введенного в окно переводчика текста  производится нажатием на значок динамика. И, кстати, делается это с очень неплохим качеством, хотя имеются и ограничения по длине введенного текста:

  • для Google – 5 000 знаков;
  • для Яндекса – 10 000 знаков.

онлайн синтезаторы речи

Имеется также масса иностранных платных онлайн сервисов, предоставляющих услуги перевода текстовых файлов в звуковые:

  • Acapela;
  • IVONA;
  • Naturalreaders;
  • Linguatec;
  • Ispeech и другие.

Большинство из них озвучивает текст на русском довольно качественно, хотя и с характерными ошибками в ударениях и ритмике речи. Бесплатная озвучка фраз ограничивается 200-500 знаками.

Acapela — бесплатная программа по озвучке текста

Acapela – самый популярный и один из лучших речевых синтезаторов, позволяющих работать в режиме онлайн. Сервис поддерживает более 30 языков, а также большое количество исполнителей на выбор, как мужских, так и женских. Для английского есть аж 20 тембров на выбор – женский, мужской, подросток, ребенок, грубый мужской, мягкий женский и т.д. Программа легко настраивается и проста в использовании. На сайте доступна программа для оффлайн применения. У вас есть возможность попробовать дэмо-версию синтезатора речи, нажав в строке меню соответствующий пункт.

Как пользоваться Acapela

Для настройки синтеза устной речи в режиме онлайн используйте блок с левой стороны на странице https://www.acapela-group.com/voices/demo/.

Итак, как это работает:

  1. В первой строке выберите язык озвучиваемого текста.
  2. Вторая строка не понадобиться, если вы выберите русский, потому-как вариант только один – Alyona.
  3. В третьей строке введите свой текст, который нужно озвучить. Ввести можно до 300 символов.
  4. Далее согласитесь с правилами сервиса, поставив галочку на пункте «i agree with terms & conditions».
  5. И нажмите ниже кнопку «Please accept terms & conditions».

Озвучка через данный сервис среднего качества. Интонации практически во всех словах правильные. Продукт доступен для всех платформ.

Команды для диктовки

Используйте команды диктовки, такие как «delete that» или «select the previous word», чтобы выполнить действие на компьютере.

В следующей таблице указано, какие команды можно произносить. Если слово или фраза выделена полужирным шрифтом, это пример. Замените его похожими словами, чтобы получить нужный результат.

Clear selection; unselect that

Удалить последний результат диктовки или выделенный текст

Delete that; strike that

Удалить фрагмент текста, например текущее слово

Переместить курсор к первому символу после указанного слова или фразы

Go after that; move after word; go to the end of paragraph; move to the end of that

Переместить курсор в конец фрагмента текста

Go after word; move after word; go to the end of that; move to the end of paragraph

Переместить курсор назад на один фрагмент текста

Move back to the previous word; go up to the previous paragraph

Переместить курсор к первому символу до указанного слова или фразы

Go to the start of the word

Переместить курсор в начало фрагмента текста

Go before that; move to the start of that

Переместить курсор вперед к следующему фрагменту текста

Переход вперед к следующему слову; Переход к следующему абзацу

Переместить курсор в конец фрагмента текста

Move to the end of the word; go to the end of the paragraph

Ввести одну из следующих клавиш: TAB, ENTER, END, HOME, PAGE UP, PAGE DOWN, BACKSPACE, DELETE

Tap Enter; press Backspace

Выбрать определенное слово или фразу

Выбрать последний результат диктовки

Выделить фрагмент текста

Select the next three words; select the previous two paragraphs

Включить или выключить режим диктовки по буквам.

Start spelling; stop spelling

Ice Book Reader Professional

Читай также:  Как в Ворде перевернуть текст: Самые простые способы

Ice Book Reader

Обычная, но опциональная «читалка».

В приложении имеется много инструментов, которые сделают чтение электронных книг на дисплее с любой дистанции более комфортабельным.

Приложение даёт возможность выбрать индивидуальные параметры для скроллинга.

Главная особенность сервиса – интегрированная база данных и режим узнавания книг с неизвестной шифровкой.

Речевой синтез основывается на классическом движке и разрешает читать голосом заданный текст, если так хочет пользователь.

ПЛЮСЫ:

  • есть опция скроллинга
  • интегрированная база данных
  • режим узнавания книг с неизвестной шифровкой

На сайт вернуться к меню

Использование распознавания речи в Windows

Просмотрите это видео об использовании распознавания речи для работы с компьютером. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)

Просмотрите это видео об использовании диктовки с распознаванием речи. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)

Распознавание речи Windows делает использование клавиатуры и мыши необязательным. Вместо этого теперь можно управлять компьютером с помощью голоса и диктовать текст для ввода.

Примечание: Распознавание речи доступно только для следующих языков: английский (США и Соединенное Королевство), французский, немецкий, японский, мандаринский диалект (китайский (упрощенное и традиционное на китайском языке) и испанский.

Прежде чем использовать распознавание речи, необходимо выполнить несколько действий. Сначала нужно настроить микрофон. Затем можно научить компьютер распознавать ваш голос.

Прежде чем приступить к настройке функции распознавания речи, убедитесь, что микрофон подключен к компьютеру, иначе настройка не удастся.

Выполните прокрутку от правого края экрана и нажмите кнопку Поиск. (Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)

Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.

Введите в поле поиска настройка микрофона, а затем выберите элемент Настройка микрофона.

Следуйте указаниям на экране.

Примечание: По возможности используйте микрофон гарнитуры — это снижает вероятность фонового шума.

Обучение компьютера распознаванию речи

Программа распознавания речи использует особый речевой профиль для распознавания голоса пользователя и произносимых команд. Чем дольше вы пользуетесь распознаванием речи, тем более подробным становится ваш речевой профиль и тем лучше компьютер интерпретирует ваши команды.

Выполните прокрутку от правого края экрана и нажмите кнопку Поиск. (Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)

Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.

Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи или щелкните его.

Нажмите или щелкните элемент Обучить компьютер для улучшения распознавания вашего голоса.

Следуйте инструкциям по настройке речевого ввода для распознавания речи.

При помощи голосовых команд можно выполнять многие задачи, например заполнять электронные формы или писать письма. Когда вы произносите слова в микрофон, программа распознавания речи преобразует их в текст, который отображается на экране.

Диктовка текста с помощью программы распознавания речи

Выполните прокрутку от правого края экрана и нажмите кнопку Поиск. (Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)

Поиск также можно открыть с клавиатуры, нажав клавиши Windows +Q.

Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи Windows или щелкните его.

Произнесите команду «Start listening» либо коснитесь кнопки микрофона или нажмите ее, чтобы войти в режим прослушивания.

Лучшие речевые синтезаторы с русскими голосами

Программа RHVoice была создана Ольгой Яковлевой. Стандартный вариант приложения включает 3 голоса. Настройки очень просты. Программу можно использовать и как самостоятельное приложение, совместимое с SAPI5, и как дополнительный экранный модуль.

Речевой синтезатор Acapela отличается от аналогов идеальным озвучиванием текста. Приложение поддерживает более 30 языков мира. В бесплатной версии доступен лишь 1 женский голос.

Программа Vocalizer часто применяется в call-центрах. Пользователь может настроить постановку ударения, громкость и скорость чтения. При необходимости загружаются дополнительные словари. В приложении есть 1 женский голос. Речевой движок автоматически встраивается в программы для чтения книг в электронном формате.

Утилита eSpeak поддерживает свыше 50 языков. Недостатком программы можно считать сохранение звуковых файлов лишь в формате WAV, который требует много места на жестком диске.

Приложение Festival является мощнейшей утилитой синтеза речи, поддерживающей даже финский язык и хинди.

Лучшие редакторы голоса онлайн

Давайте подробно рассмотрим сетевые ресурсы, позволяющие модифицировать голос онлайн.

Voicechanger.io — сервис преобразования голоса

Данный англоязычный ресурс Voicechanger.io позволяет легко изменить голос, даруя выбор из более чем 50 различных эффектов для модификации вашей речи (тональность, шумоподавление лишних звуков, голосовой эквалайзер и тд.).

Принцип работы ресурса Voicechanger следующий:

  1. Вы переходите на ресурс voicechanger.io;
  2. Нажимаете на кнопку «Upload audio» для загрузки на ресурс аудиофайла с вашим голосом, или на кнопку «Use a microphone» для записи разговора с микрофона вашего ПК (необходимо будет разрешить сайту доступ к вашему микрофону);
  3. Производите запись с микрофона, зачем жмёте на кнопку «Stop recording»;
  4. Затем выбираете нужный эффект из представленных ниже путём клика, и прослушиваете результат;
  5. Если последний вас устроил, наводите курсор на кнопку «Play» проигрывателя, жмёте правую кнопку мыши, и выбираете «Save audio as» (Сохранить аудио как) для сохранения данного аудиофайла к себе на ПК.

Voicespice.com аудио-редактор с большим функционалом

Аудиоредактор Voicespice.com также позволяет модифицировать любую речь, записанную с помощью микрофона. Принцип его работы похож на уже упомянутый сервис voicechanger.io, при этом выбор эффектов здесь довольно ограничен (представлены голос демона, «космической белки», робота, мужчины и женщины).

Чтобы воспользоваться функционалом онлайн-утилиты Voicespice выполните следующее:

  1. Перейдите на сервис voicespice.com;
  2. Под названием «Voice» выберите необходимый вам эффект нажатием на стрелочку;
  3. Нажмите на кнопку «Record», затем с помощью нажатия на «Allow» предоставьте сервису доступ к вашему микрофону, проговорите нужный текст;
  4. Для окончания записи нажмите на кнопку «Stop»;
  5. Если результат устроил, нажмите на кнопку «Save», заполните название ролика и его описание, вновь нажмите на «Save» внизу;
  6. Сервис не позволяет сохранять аудиофайл, вы только можете поделиться ссылкой на него с другими пользователями. Ссылка будет доступна с помощью нажатия на кнопку «Link».

Onlinetonegenerator.com позволяет трансформировать голоса в записи

Редактор Onlinetonegenerator.com не обладает возможностями сервисов voicespice.com и voicechanger.io. Его функционал предполагает простое изменение тона и полутонов вашего голоса, записанного в аудиофайле формата mp3 или wav. При работе с ним рекомендую пользоваться браузером Google Chrome, так как, к примеру, с браузером Firefox сервис работает нестабильно.

Для работы с сервисом Onlinetonegenerator выполните следующее:

  1. Перейдите на ресурс Online Tone Generator;
  2. Нажмите на кнопку «Browse» и загрузите на ресурс аудиофайл с вашим голосом;
  3. Внесите соответствующую высоту тона (от -12 до 12) в соответствующую ячейку;
  4. Нажмите на «Play» и прослушайте результат;
  5. Если последний вас устроил, поставьте галочку рядом с параметром «Save output to downloadable file», вновь прослушайте результат, после чего внизу появится ссылка на скачивание вашего изменённого аудиофайла.

Conversion-tool.com поможет изменить аудиофайл

Ещё один англоязычный сервис, позволяющий изменить тон и тембр записанных голосов онлайн. Среди его возможностей наличие двух алгоритмов конверсии, широкий выбор полутонов (от -24 до 24), изменение скорости проигрывания, сохранение файла в формате mp3/m4a/aac.

Для работы с ресурсом Конверсион выполните следующее:

  1. Перейдите на сервис conversion-tool.com;
  2. Нажмите на «Browse» и загрузите нужный аудиофайл;
  3. Выберите настройки трансформации аудио из перечисленных ниже;
  4. Нажмите на кнопку «Convert now» для произведения изменений;
  5. Кликните на кнопку «Click here» для сохранения полученного результата.

Озвучка текста голосом онлайн – функционал сервисов

В большинстве случаев озвучка текста голосом онлайн довольно стандартизирована, и направлена, скорее, на демонстрацию возможностей выбранного голосового движка, нежели для воспроизводства огромных размеров пользовательских текстов. Бесплатный функционал большинства онлайн-сервисов ограничен текстом объёмом в 250-300 символов, а за полноценные возможности голосового движка и воспроизведение больших объёмов материала придётся заплатить реальные деньги.

Стандартный шаблон работы с такими сайтами выглядит следующим образом: вы переходите на ресурс, выбираете в специальном окне нужный язык, выбираете женский или мужской голос, вводите в окне нужный вам текст и нажимаете на кнопку воспроизведения. Сервис читает ваш текст, вы составляете впечатление о качестве голосового движка, и решаете, работать с ним далее или нет.

Воспроизведение текста

Что такое синтезаторы речи

Синтезатор речи — это программное обеспечение, которое превращает текст в голос. Процесс преобразования проходит в несколько этапов:

  1. Подготовка текста: перевод чисел в слова, расшифровка сокращений, разделение на фразы.
  2. Составление фонетической конструкции на основании словарей, встроенных в систему.
  3. Расчет данных для достижения плавного перехода и создания правильной интонации.
  4. Воспроизведение звука.

Синтезаторы речи поддерживают разные языки, что позволяет их использовать в том числе для переводов. С их помощью можно научиться правильно произносить слова на иностранных языках, создавать аудиокниги, озвучивать видеоролики, презентации, документы, а также просто воспроизводить вслух любые тексты на родном языке, если есть проблемы с речью или зрением.

Работа синтезатора занимает доли секунды — стоит только набрать текст, как робот готов прочитать его вслух.

Синтезаторы превращают массивы текста в аудиопоток, воспроизведением которого можно управлять: ставить на паузу, перематывать, менять громкость и скорость чтения.

Бенчмарки по Скорости

После качества скорость является следующим определяющим свойством модели, для измерения скорости синтеза мы используем следующие простые метрики:

  • RTF (Real Time Factor) — какую долю длительности аудио занимает синтез этого аудио;
  • RTS = 1 / RTF (Real Time Speed) — насколько синтез «быстрее» риалтайма;

Метрики мы снимали на двух устройствах с помощью встроенных в PyTorch 1.8 утилит:

  • CPU — Intel i7-6800K CPU @ 3.40GHz;
  • GPU — 1080 Ti;
  • При снятии метрик на CPU мы также ограничивали число используемых потоков;

Для моделей 16 kHz получаются такие показатели:

Батч Устройство RTF RTS
1 CPU 1 thread 0.7 1.4
1 CPU 2 threads 0.4 2.3
1 CPU 4 threads 0.3 3.1
4 CPU 1 thread 0.5 2.0
4 CPU 2 threads 0.3 3.2
4 CPU 4 threads 0.2 4.9
————
1 GPU 0.06 16.9
4 GPU 0.02 51.7
8 GPU 0.01 79.4
16 GPU 0.008 122.9
32 GPU 0.006 161.2
————

Для моделей 8 kHz получаются такие показатели:

Батч Устройство RTF RTS
1 CPU 1 thread 0.5 1.9
1 CPU 2 threads 0.3 3.0
1 CPU 4 threads 0.2 4.2
4 CPU 1 thread 0.4 2.8
4 CPU 1 threads 0.2 4.4
4 CPU 4 threads 0.1 6.6
————
1 GPU 0.06 17.5
4 GPU 0.02 55.0
8 GPU 0.01 92.1
16 GPU 0.007 147.7
32 GPU 0.004 227.5
————

Также при расчетах скорости мы были удивлены ряду вещей:

  • Процессоры AMD показали себя сильно хуже;
  • Удивительно, но бутылочным горлышком в нашем случае оказался именно такотрон а не вокодер (еще остается существенный потенциал ускорения всей системы в 3-4 раза, а может даже и в 10 раз, если получится квантизация и дополнительное сжатие);
  • Более чем 4 потока CPU не помогают, равно как и батч больше 4;

Выводим текст через NVDA

Мы научились озвучивать приложение с помощью установленных в системе синтезаторов. Но что если большинству пользователей эта фишка не нужна, и мы хотим добавить речь исключительно как опцию для слабовидящих? В таком случае не обязательно писать код озвучивания: достаточно передать текст интерфейса другому приложению — экранному диктору.

Одна из самых популярных программ экранного доступа в Windows — бесплатная и открытая NVDA. Для связи с ней к нашему приложению нужно привязать библиотеку nvdaControllerClient (есть варианты для 32- и 64-разрядных систем). Узнавать разрядность системы вы уже умеете.

Еще для работы с экранным диктором нам понадобятся модули ctypes и time. Создадим файл nvda.py, где напишем модуль связи с NVDA:

import time, ctypes, platform

# Загружаем библиотеку клиента NVDA

bit = platform.architecture()

if bit == ’32bit’:

    clientLib = ctypes.windll.LoadLibrary(‘nvdaControllerClient32.dll’)

elif bit == ’64bit’:

    clientLib = ctypes.windll.LoadLibrary(‘nvdaControllerClient64.dll’)

else:

    errorMessage=str(ctypes.WinError(res))

    ctypes.windll.user32.MessageBoxW(0,u»Ошибка! Не удалось определить разрядность системы!»,0)

# Проверяем, запущен ли NVDA

res = clientLib.nvdaController_testIfRunning()

if res != 0:

errorMessage=str(ctypes.WinError(res))

ctypes.windll.user32.MessageBoxW(0,u»Ошибка: %s»%errorMessage,u»нет доступа к NVDA»,0)

def say(msg):

    clientLib.nvdaController_speakText(msg)

    time.sleep(1.0)

def close_speech():

    clientLib.nvdaController_cancelSpeech()

Теперь эту заготовку можно применить в коде основной программы:

import nvda

nvda.say(‘Начать игру’)

# … другие реплики или сон

nvda.close_speech()

Если NVDA неактивна, после запуска кода мы увидим окошко с сообщением об ошибке, а если работает — услышим от нее заданный текст. 

Плюс подхода в том, что незрячий пользователь будет слышать тот голос, который сам выбрал и настроил в NVDA.

Итоги

Обычным пользователям и людям с ограниченными возможностями подойдут приложения с простым интерфейсом. Это может быть как RHVoice, так и «Синтезатор речи Google». Русский голос озвучит отображаемый на экране текст. Большего рядовому пользователю не требуется.

Музыкантам рекомендуется отдавать предпочтение профессиональной программе Vocaloid. В приложении есть дополнительные голосовые библиотеки и множество различных опций. Программа позволит получить естественное звучание голоса

Ведь музыкантам так важно, чтобы компьютерный синтез не ощущался на слух

Google открыла доступ к собственной технологии перевода печатного текста в аудио. С помощью Google Cloud Platform создатели приложений могут использовать синтез речи для внедрения функций автоответчика и озвучивания любого текста.

Разработчикам предлагается выбор из 32 голосов и 12 языков. В настройках можно изменять тембр, скорость и громкость. Поддерживаются разные форматы аудио, включая MP3 и WAV.

Улучшенный синтез речи

Технология основана на обновленной версии WaveNet, поэтому команда проекта уверена в правильном звучании даже сложного текста. Благодаря облачному процессору Google TPU, искусственная речь генерируется в 1000 раз быстрее: одна секунда воспроизведенного текста создается за 50 миллисекунд. Для более естественного звучания качество звуковых фрагментов повышено с 8 до 16 бит.

Для оценки качества речи были привлечены добровольцы. Созданные системой WaveNet аудиозаписи получили в среднем 4,1 балла. Для сравнения, голос реального человека был оценен максимум на 4,59 балла из 5:

Оценка качества обычного синтезатора, WaveNet и человеческой речи

Стоимость сервиса зависит от объема работы: стандартная система озвучивания стоит 4 $ за каждый миллион озвученных символов, а WaveNet — 16 $. Подробнее о технологии можно узнать в документации.

У системы перевода печатного текста в аудио от Google есть серьезные конкуренты. В феврале 2021 года технология Baidu Deep Voice научилась менять женский голос на мужской.

  • https://trashbox.ru/link/google-text-to-speech-android
  • https://androidlime.ru/google-speech-synthesizer-on-smartphone
  • https://gemapps.ru/sravnenie/obzor-sintezatorov-rechi-dlya-android
  • https://www.syl.ru/article/298926/chto-takoe-sintezatoryi-rechi-luchshie-sintezatoryi-rechi
  • https://tproger.ru/news/google-text-to-speech-for-all/

ПОДЕЛИТЬСЯ Facebook

tweet

Предыдущая статьяSamsung Galaxy A5 2021 (SM-A520F) и его полные характеристики

Следующая статья

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
Сервис по настройке
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: