Abook09 1.1.0 + acapela-elan-tts-speechcube [2009, перевод текста в голос]

Auslogics BoostSpeed Premium 7.2.0.0 RePack + Portable [2014, Оптимизация системы]

Год выпуска: 2014Жанр: Оптимизация системыРазработчик: Auslogics Software Pty Ltd.Сайт разработчика: http://www.auslogics.com/ru/Язык интерфейса: Русский + АнглийскийТип сборки: RePack + PortableРазрядность: 32/64-bit Операционная система: Windows XP, Vista, 7, 8, 8.1 Описание: AusLogics BoostSpeed — приложение, которое поможет быстро и качественно произвести настройку ПК на максимальную производительность. Встроенный инструмент System Adviser проверит настройки системы с помощью пятидесяти различных тестов и предложит рекомендации по результатам каждого теста. Программа проверяет сист …

Программы / Системные приложения / Оптимизация, настройка и диагностика системы
Подробнее  

Выбираем голосовой синтезатор речи с русским голосом

12.01.2015

Интернет

Недавно передо мной встала проблема выбора голосового синтезатора речи. Основные требования — это поддержка русского языка и более-менее нормальное произношение.
Для тех, кто не в курсе того, что такое синтезатор речи, расскажу — это специальная программа, смысл работы которой заключается в преобразовании письменного текста в устную речь. Это и есть так называемый синтез.
Зачем это надо? Ну, например, когда надо записать голосовое сообщение чужим голосом. Иностранцам оно может быть полезно для того, чтобы услышать произношение того или иного слова. Синтезатор речи удобен для чтения, когда надо включить ребенку сказку, которой нет в аудиокнигах. Да и вообще, ситуации всякие бывают.
Так вот, в процессе выбора я нашел несколько очень полезных инструментов, среди которых работающих в режиме онлайн с поддержкой русского языка и сейчас я Вам о них и расскажу. 

Переводчик Google

Вот поистине многоцелевой продукт, которых можно использовать совершенно по-разному. Главные преимущества:
— это совершенно бесплатный сервис;
— работа в режиме Онлайн без установки. Нужен только доступ в Интернет;
— на мой взгляд этот синтезатор речи имеет лучший голосовой модуль, самое близкое к натуральному;
— наверное самая лучшая команда разработчиков и техподдержка в мире;
— самое большое количество поддерживаемых языков.
К сожалению, вариант голоса только один — женский. Выбора я не нашел.

RHVoice

Отличный многоязычный синтезатор речи от российского разработчика — Ольги Яковлевой. Есть версии, как для операционных систем семейства Windows, так и для Linux. Разработчик синтезатора — Ольга Яковлева. Программа распространяется совершенно бесплатно и доступна на официальном сайте в двух вариантах: как SAPI5-совместимая самостоятельная версия и как модуль для бесплатной программы экранного доступа NVDA. Этот синтезатор голосовой речи умеет озвучивать русские тексты тремя голосами — Елена, Ирина и Александр.

Acapela

Acapela — это, пожалуй, один из самых популярных и распространенных голосовых синтезаторов в мире. Главная особенность — это озвучка текстов более чем на тридцати языках мира. Если рассматривать русский язык, то тут доступны два голоса — Николай и Алена. Причем последний более совершенен и естественен в плане произношения. В демонстрационном режиме на сайте доступен только голос Алена.
Программа доступна для скачивания на официальном сайте и поддерживает все популярные современные операционные системы — Windows, Linux, Mac. Есть даже версии для Android u iOS.

Vokalizer

Женских голос Milena — это ещё один очень популярный движок голосового синтезатора речи от компании Nuance — он очень высококачественный и естественно звучащий.  Его Вы можете услышать в call-центрах и в различных сетевых речевых системах, а также в различных приложениях приложениях — таких как  Moon+ Reader Pro, Full Screen Caller ID , Cool Reader, в навигационной программах TomTom, iGo Primo.
Среди плюсов можно отметить возможность установки различных  словарей, регулировки громкости, ударения и скорости чтения.
Код программы открытый, скачать его бесплатно можно на официальном сайте, собственно как и инсталлятор самой программы.

Festival

Festival — это не просто очередной голосовой речевой синтезатор, а уже целая система распознавания и синтеза речи с различными API. Разработчик — Исследовательский Центр Речевых Технологий университета Эдинбурга.
Festival предназначен для поддержки нескольких языков. По умолчанию поддерживает английский, валлийский и испанский языки. Но есть возможность подключить голосовые пакеты других языков: чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу.
Код программы открытый, сам голосовой синтезатор распространяется по лицензии open source и доступна только для операционных систем Linux. Правда есть портированная версия по Макинтош.

ESpeak

Последняя в моём обзоре система синтеза речи — программа ESpeak — разрабатывается уже около 8 лет. Последняя версия — 1.48.04 от 6 апреля 2014. Данный голосовой синтезатор речи кроссплатформенный — есть версии под Windows, Linux, Mac OS X, и даже под RISC OS, хотя последние две уже давно не поддерживаются.
Отдельно отмечу, что eSpeak используется в мобильных операционных системах Android, правда имеет при этом ряд существенных ошибок.
Программа поддерживает пятидесяти различных языков, поддержка которых указывается при установке программы.
Один из главных минусов это голосового синтезатора — генерирование голоса только в файл формата WAV. Скачать программу бесплатно можно на официальном сайте.

acapela, олосовой синтезатор, синтезатор речи голос, синтезатор русской речи

Диктор удаленно: как выбрать?

Решив прибегнуть к услугам фрилансеров, будьте уверены, что получите качественный результат за приемлемую оплату. Фриланс-биржа Weblancer.net предоставляет возможность найти и нанять диктора, актёра для закадрового озвучивания фильмов, сериалов, аудиокниг и видеороликов удалённо. Подобные вакансии сейчас готовы занять множество профессионалов, и в этом легко убедиться, просмотрев каталог исполнителей по данному направлению.

Благодаря Weblancer, вы сможете работать со специалистом в режиме «онлайн», независимо от его местонахождения. Озвучка на удаленной работе ничем не отличается от студийной деятельности. При этом, обходится гораздо дешевле, ведь вы сможете сотрудничать напрямую с профессионалом.

Такое фриланс сотрудничество позволит достигнуть необходимого результата, и не займёт много времени. Аудиофайл с записью вы сможете получить посредством облачных сервисов, а перевод денег осуществить непосредственно на бирже. Главное, заключить на сайте Безопасную сделку, которая станет гарантом удаленного сотрудничества.

Обработка текста

Первой задачей будет обработка текста. Представим текст в том виде, в котором он будет в дальнейшем озвучен. Числа представим прописью, а сокращения раскроем. Подробнее можно почитать в статье посвященной синтезу. Это тяжелая задача, поэтому предположим, что к нам поступает уже обработанный текст (в базах выше он обработан).

Следующим вопросом, которым следуют задаться, это использовать ли графемную, или фонемную запись. Для одноголосного и одноязычного голоса подойдет и буквенная модель. Если хотите работать с многоголосой многоязычной моделью, то советую использовать транскрипцию (Гугл тоже).

G2P

Для русского языка существует реализация под названием russian_g2p. Она построена на правилах русского языка и хорошо справляется с задачей, но имеет минусы. Не для всех слов расставляет ударения, а также не подходит для многоязычной модели. Поэтому возьмём созданный ей словарь, добавим словарь для английского языка и скормим нейронной сети (например этим , )

Прежде чем обучать сеть, стоит подумать, какие звуки из разных языков звучат похоже, и можно им выделить один символ, а для каких нельзя. Чем больше будет звуков, тем сложнее модели учиться, а если их будет слишком мало, то у модели появиться акцент. Не забудьте ударным гласным выделять отдельные символы. Для английского языка вторичное ударение играет малую роль, и я бы его не выделял.

Драйвер для синтезаторов речи Vocalizer Expressive 2.2

Синтезаторы речи для данного типа драйвера можно скачать на странице

Синтезаторы речи Vocalizer expressive2

Версия vocalizer_expressive2_driver-2020.05.18

Драйвер синтезатора VocalizerExpressive2 обновлён до версии 2020.05.18.Из изменений можно отметить следующее:1. Добавлена поддержка голосов для украинского, персидского, малайского и вьетнамского языков.2. Драйвер теперь поддерживает экземпляры speech.BreakCommand для создания пауз в речи.3. Драйвер больше не вызывает ошибку при доступности голосовых данных для неизвестного языка (отсутствующего в _languages.py).4. Прочие мелкие улучшения и исправления.

  • Дата обновления драйвера: 18 Мая 2020
  • Обновление производил программист: Kvark
  • На Nvda 2019.2.1 и ниже, работать не будет.

К обновленному драйверу vocalizer_expressive2_driver-2020.05.18.nvda-addon подходят пакеты синтезаторов речи второй линейки, а также синтезаторы Vocalizer expressive 2.2 устанавливаемые для программы экранного доступа JAWS.Даже если вы не используете программу JAWS, вы всё равно можете установить синтезаторы речи в свою систему, прямо скаталога загрузок freedomscientificСкачать

Версия vocalizer_expressive2_driver-2020.02.27

  • Дата обновления драйвера: 27 Февраля 2020
  • Драйвер переведен на Python 3.7 под новую версию Nvda 2019.3
  • Обновление производил программист: Kvark
  • На Nvda 2019.2.1 и ниже, работать не будет.

К обновленному драйверу vocalizer_expressive2_driver-2020.02.27.nvda-addon подходят пакеты синтезаторов речи второй линейки, а также синтезаторы Vocalizer expressive 2.2 устанавливаемые для программы экранного доступа JAWS.Даже если вы не используете программу JAWS, вы всё равно можете установить синтезаторы речи в свою систему, прямо скаталога загрузок freedomscientific
Скачать

Версия vocalizer_expressive2_driver-2020.02.11

  • Дата обновления драйвера: 11 Февраля 2020
  • Драйвер переведен на Python 3.7 под новую версию Nvda 2019.3
  • Обновление производил программист: Kvark
  • На Nvda 2019.2.1 и ниже, работать не будет.

К обновленному драйверу vocalizer_expressive2_driver-2020.02.11.nvda-addon подходят пакеты синтезаторов речи второй линейки, а также синтезаторы Vocalizer expressive 2.2 устанавливаемые для программы экранного доступа JAWS.Даже если вы не используете программу JAWS, вы всё равно можете установить синтезаторы речи в свою систему, прямо скаталога загрузок freedomscientific
Скачать

Версия vocalizer_expressive2_driver-2019.12.11

  • Дата обновления драйвера: 11 Декабря 2019
  • Драйвер переведен на Python 3.7 под новую версию Nvda 2019.3
  • Обновление производил программист: Kvark
  • На Nvda 2019.2.1 и ниже, работать не будет, используйте предыдущию версию драйвера.

К обновленному драйверу vocalizer_expressive2_driver-2019.12.11.nvda-addon подходят пакеты синтезаторов речи второй линейки, а также синтезаторы Vocalizer expressive 2.2 устанавливаемые для программы экранного доступа JAWS.Даже если вы не используете программу JAWS, вы всё равно можете установить синтезаторы речи в свою систему, прямо скаталога загрузок freedomscientificСкачать

Работает на Nvda 2019.2.1 и ниже

Скачать драйвер

VLC media player 2.2.1 32/64-bit

Год выпуска: 2015Жанр: МедиаплеерРазработчик: VideoLANСайт разработчика: http://www.videolan.org/Язык интерфейса: Мультиязычный (русский присутствует)Тип сборки: StandardРазрядность: 32/64-bitОперационная система: Windows XP, Vista, 7, 8, 8.1, 10 Описание: VLC Media Player — универсальный плеер, способный воспроизводить практически любые существующие на сегодняшний день форматы файлов: MPEG-1, MPEG-2, MPEG-4, DivX, XviD, H.264, MP3, OGG и другие, обычные DVD и VCD диски, а также музыкальные. Одной из его особенностей является возможность проигрывания практически любого типа потокового…

Все чаще в повседневной жизни стали использовать синтезаторы речи. Синтезаторы речи, как становится видно уже по одному названию, осуществляют синтез речи, то есть форматируют письменный текст в устный.

Благодаря этому можно учить новые иностранные слова с правильным произношением, читать книги не отвлекаясь от своих дел или, например, находясь в транспорте. Изначально разработкой таких программ занимались организации, специализирующиеся на технике для людей с проблемами зрения.

Сейчас же, любой пользователь может скачать одну из программ, установить ее на свой компьютер или телефон и синтезировать речь, в том числе и русскую.

Для этого было разработано множество различных программ, приложенный и даже целых систем. К сожалению, не все из них предназначены для русскоязычной аудитории.

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая

Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений

Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

3. RHVoice

Код синтезатора открыт для всех, программы же абсолютно бесплатны. RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA. Все версии можно скачать с официального сайта разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

  • Microsoft Windows,
  • Mac OS X,
  • Linux,
  • RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном

Порой надо озвучить текст, который написан на компьютере. Но как это сделать? Необходимо использовать специальное программное обеспечение, которое называется синтезатором речи. С помощью этой утилиты можно превратить письменный текст в устную речь. На просторах Всемирной паутины существует куча десктопных речевых синтезаторов. Тем не менее лучше использовать онлайн-сервисы. Ведь в таком случае не придется скачивать софт на ПК, засоряя таким образом память. В этой статье мы рассмотрим лучшие онлайн говорилки.

Синтезаторы речи имеют довольно широкий спектр применения. В первую очередь подобные программы будут полезны людям с ограниченным возможностями. К примеру, изначально синтезаторы речи предназначались для людей, которые имеют проблемы со зрением и не могут читать текст с монитора.

Говорилки могут стать хорошим помощником в процессе обучения. К примеру, их можно использовать чтобы слушать иностранную речь и тренировать таким образом восприятие. Также синтезатор речи применяют для того, чтобы слушать книги, занимаясь при этом бытовыми делами.

Установка утилиты

Для начала давайте установим Говорилку. Для этого кликните два раза по файлу с названием «Govorilka222.exe». Откроется окно Мастера установки, в котором нажмите «Далее».

Затем примите условия лицензионного соглашения, поставив маркер в соответствующем поле, и жмите «Далее».

Прочитайте приведенную в окне информацию и продолжайте.

В поле будет предложена папка, куда установится программа, если захотите ее изменить, нажмите «Обзор».

Дальше предложат установить компонент «Microsoft SpeechAPI 4». Если вы уверенны, что на компьютере он у вас установлен, тогда галочку можете снять. Если не уверенны, то галочку оставьте и продолжайте.

Можете добавить ярлык на рабочий стол и на панель быстрого запуска.

Когда все параметры будут выбраны, жмите «Установить».

После завершения процесса установки можно снять или оставить галочку в поле для запуска программы и нажимайте «Завершить».

Встроенный синтезатор в NVDA

Итак, вы установили чтец экрана NVDA из установочного файла. С первого момента NVDA заговорит встроенным синтезатором eSpeak NG на вашем родном языке, в нашем случае на русском. На момент написания этих строк на официальной странице синтезатора указано, что он «поддерживает 102 языка и акценты».

Имейте ввиду, что с каждым годом синтезатор говорит всё разборчивее, так что не сетуйте, что лично вы мало что можете понять в его бормотании, раньше это ещё сложнее было сделать. Со временем слух привыкает и это хорошая, во всех случаях самая доступная альтернатива.

Но кроме встроенного в NVDA, на операционной системе Windows 10 есть свои синтезаторы, которыми можно воспользоваться для речи в нашем чтеце. Кстати, если у вас система Windows 10, то заговорит именно встроенный синтезатор Ирина!

Список синтезаторов речи:

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена. Женский голос появился значительно позднее мужского и является более усовершенствованным.

Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.

Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance. Голос звучит очень естественно, речь чистая

Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно. Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений

Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на производителя программы.

3. RHVoice

Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье

Код синтезатора открыт для всех, программы же абсолютно бесплатны. RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA. Все версии можно скачать с разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

  • Microsoft Windows,
  • Mac OS X,
  • Linux,
  • RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно. А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете. Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальномуниверситета Эдинбурга.

Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений. К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.

Как использовать синтезаторы речи Acapela group?

Перед загрузкой синтезаторов речи вам необходимо произвести установку специальную программу менеджер от разработчика Acapela group.Скачать acapela_group_infovox_desktopВнимание! Перед установкой следуйте инструкции из файла !Help.txt. После установки менеджера Infovox Desktop и выбранных синтезаторов речи, в программе Nvda откройте выбор синтезаторов нажав комбинацию горячих клавиш:

После установки менеджера Infovox Desktop и выбранных синтезаторов речи, в программе Nvda откройте выбор синтезаторов нажав комбинацию горячих клавиш:

Incert + Control + S

Incert + Control + V

Чтобы использовать синтезаторы парами: Русский — Фарерский, Английский — Немецкий, Французский — Итальянский, Турецкий — Русский, Испанский — Уэльский английский, Польский — Голландский, Исландский — Русский и создавать другие пары…Установите дополнение «Dual Voice» со страницы всех дополнений.После чего в разделе выбора «синтезаторов», вместо пункта «Microsoft sapi5.1» выбирайте пункт «Dual voice», а затем в разделе голосов производите настройку сразу пары голосов.

О качестве голосов!

Некоторые голоса представлены в двух качествах высшем и низком, а вот какие-то из голосов имеют лишь одно из качеств.Расшифровка:

  • HD TTS (High density)HD TTS (Низкое качество)
  • HQ TTS (High quality)HQ TTS (Высшее качество)
  • Kate — HD TTS (High density)
  • Lucy — HQ TTS (High quality)
  • Peter — HQ TTS (High quality)
  • Roger — HD TTS (High density)

Далее

Английский (Соединенные Штаты Америки) — English (United States)

  • Heather — HQ TTS (High quality)
  • Jane — HD TTS (High density)
  • John — HD TTS (High density)
  • Kenny — HQ TTS (High quality)
  • Nelly — HQ TTS (High quality)
  • Ryan — HQ TTS (High quality)

Далее

Salma Youssef — HQ TTS (High quality)

Далее

  • Els — HD TTS (High density)
  • Sofie — HQ TTS (High quality)

Далее

  • Femke — HQ TTS (High quality)
  • Hilde — HD TTS (High density)
  • Max — HQ TTS (High quality)
  • Rik — HD TTS (High density)

Далее

  • Mette — HQ TTS (High quality)
  • Poul — HD TTS (High density)

Далее

Snorri — HD TTS (High density)

Далее

Rosa — HQ TTS (High quality)

Далее

  • Javier — HD TTS (High density)
  • Maria — HQ TTS (High quality)

Далее

  • Chiara — HQ TTS (High quality)
  • Roberto — HD TTS (High density)

Далее

Немецкий — German

  • Gerhard — HD TTS (High density)
  • Helga — HD TTS (High density)
  • Klaus — HQ TTS (High quality)
  • Sarah — HQ TTS (High quality)

Далее

  • Kari — HQ TTS (High quality)
  • Trygve — HD TTS (High density)
  • Vegard — HD TTS (High density)

Далее

Ania — HQ TTS (High quality)

Далее

  • Carlos — HD TTS (High density)
  • Paolo — HD TTS (High density)

Далее

  • Celia — HQ TTS (High quality)
  • Ester — HD TTS (High density)

Далее

Alyona — HQ TTS (High quality)

Далее

  • Baris — HD TTS (High density)
  • Ceren — HD TTS (High density)

Далее

Sjurdur — HD TTS (High density)

Далее

  • Matti — HD TTS (High density)
  • Sanna — HQ TTS (High quality)

Далее

Louise — HQ TTS (High quality)

Далее

Французский — French

  • Alice — HQ TTS (High quality)
  • Bruno — HQ TTS (High quality)
  • Caroline — HD TTS (High density)
  • Claire — HQ TTS (High quality)
  • Julie — HQ TTS (High quality)
  • Pierre — HD TTS (High density)

Далее

  • Eliska — HQ TTS (High quality)
  • Sabrine — HD TTS (High density)

Далее

Шведский — Swedish

  • AnnMarie — HD TTS (High density)
  • Elin — HQ TTS (High quality)
  • Emma — HQ TTS (High quality)
  • Erik — HQ TTS (High quality)
  • Ingmar — HD TTS (High density)

Далее

Отправить этот пост друзьям или знакомым

Для этого достаточно всего лишь кликнуть на социальные кнопки представленные ниже этого текста, а затем в открывшимся окошке подтвердить своё желание поделиться.

Просьба администратора

Личные просьбы по работе сайта или облачных хранилищ, невозможности скачать предложенный файл отправляйте через

  • форму обратной связиили через раздел
  • обсуждений в сообществе VK,а не через форму для комментариев.

Речевые технологии для разработчиков

  1. Синтезирование речи из приложения Windows 8.1 через Windows.Media.SpeechSynthesis В Windows 8.1 Preview был введён новый API — Windows.Media.SpeechSynthesis, предназначенный для преобразования текста в речь. По задумке Microsoft, он может использоваться для создания голосовых подсказок пользователю, советов по навигации или любых других задач, требующих чтения текста вслух. На момент версии Windows 8.1 Preview, данный API предоставляет следующие возможности…
  2. Речевые технологии для разработчиков (вводная статья)
  3. Простой пример использования SAPI 5.x в программах на C/C++ На примере простого консольного приложения ниже будет описан способ использования синтеза речи по тексту для MS SAPI 5.x. В примере приведен код для SAPI 5.1, но принципиальных отличий в использовании SAPI 5.3 (MS Windows Vista) и SAPI 5.4 (MS Windows 7) нет…
  4. Использование MS Speech API 4.0 в программах на FreeBASIC Поскольку компоненты MS Speech API 4 (MS SAPI 4) реализованы как серверы OLE автоматизации, то, взяв их в качестве примера, мы разберемся в том, как работать с подобными компонентами в программах на FreeBASIC…
  5. Использование MS Speech API 5.1 в программах на FreeBASIC Для взаимодействия с компонентами Microsoft Speech API 5.1 (MS SAPI 5.1) из программы на FreeBasic мы воспользуемся функциями библиотеки DispHelper…
  6. Библиотека SAPI_DLL Библиотека SAPI_DLL создана для облегчения доступа к интерфейсам MS Speech API для синтеза речи по тексту. Для того что бы научить Ваше приложение «разговаривать», достаточно вызвать простые процедуры из SAPI_DLL.
  7. Теги речевой разметки в SAPI 4
  8. Использование MS Agent в Visual Basic
  9. Speech API в Delphi (часть 1) Хотите чтобы Делфи заговорил — читайте эту страницу!
  10. Speech API в Delphi (часть 2)
  11. MS Agent и Delphi

Доступные решения

В материале разберём добавление русского голоса  на такие программы, как NVDA и Экранный Диктор Windows.Данные программы доступнее остальных, так Экранный Диктор, является предустановленной программой операционной системы Windows? Не требует особых знаний и входит в лицензию системы. А программа NVDA, является уникальным продуктом для голосового доступа  к экрану компьютера, она уже ни первый год помогает людям с нарушениями зрения. Главной особенностью программы, можно отметить её бесплатность  и широкий спектр возможностей, по решаемой проблеме.

Как было сказано в прошлой статье, существует множество синтезаторов речи. В большинстве они выпускаются в нескольких вариантах, что облегчает выбор для вашего рабочего диктора.  Синтезаторы речи можно поделить на две большие группы:

  • Коммерческие – выпускаемые по платным лицензиям, имеющие ограничения на пробный период.
  • Бесплатные – синтезаторы, предоставляемые пользователям на правах свободного распространения .

Люблю повторять фразу: «Бесплатно, не значит хуже!». В нашем случае эта фраза подходит, как нельзя лучше. Бесплатные синтезаторы речи развиваются и имеют место быть.

О преобразовании текстов в звук

Люди давно практикуют прослушивание текстов вместо их чтения. Причиной тому — и природная лень, и нежелание напрягаться, и забота о сохранении зрения, и русские романтические традиции, воспетые еще А. С. Пушкиным в своих детских воспоминаниях о няне из стихотворения Сон:

И шепотом рассказывать мне станет
О мертвецах, о подвигах Бовы…

Как и во многих отраслях современной промышленности, информационные технологии в деле чтения пришли на помощь продолжателям дела пушкинской няни. Сегодня с переводом текста в речь, кроме приложения Balabolka, справляются аналогичная по возможностям Govorilka, текстовый редактор Демагог, ридеры Tom, Cool и Ice Book.

Самым ленивым и требовательным к качеству воспроизведения речи читателям, точнее слушателям, лучше других бесплатных программ подойдет русская версия Balabolka. Эта программа не без недостатков, но все-таки самостоятельно почитает вслух как простой текст, так и более продвинутые форматы оцифрованных книг. Попробуйте последнюю версию Балаболки скачать с голосовыми движками, говорящими на русском языке, записать из программы MP3 и послушать на любом совместимом устройстве любимые произведения классиков или современную прозу по пути в офис, в спортзале, в очереди или перед сном. На мамину или нянину сказку на ночь это, конечно, похоже не будет, но воспринимается такая машинная декламация компьютерным голосом вполне нормально.

Функциональные возможности

Balabolka бойко и громко прочитает текстовку из буфера обмена, а также из файлов: TXT, BXT, AZW, MOBI, PRC, CHM, DJVU, DJV, DOC, DOCX, EPUB, FB2, HTM, HTML, MHT, LIT, ODT, PDB, PDF, RAR, RTF, TCR, WPD, ZIP. Прослушивать можно не только русскоязычные произведения. Кроме уже установленного английского голосового модуля, можно установить немецкий, французский, итальянский, испанский и множество прочих голосовых движков.

Balabolka умеет разделять большие тексты на маленькие файлы для удобства, удалить символы переноса строк для предотвращения запинания во время проговаривания, декламировать набираемые слова и предложения. Программа позволяет легко изменить цвет, шрифт, откорректировать произношение, проверить текст на орфографические ошибки, находить омографы. Работу можно запускать, приостанавливать и останавливать, применяя хоткей.

Необходимо отметить следующие достоинства Балаболки:

— комфортная процедура прослушивания текстов,
— продвинутая многоязычность,
— управление сочетаниями горячих клавиш,
— помощь людям с проблемами зрения,
— эффективный метод обучения и подготовки к экзаменам,
— настройка отображаемого шрифта,
— демонстрация текста параллельно с прослушиванием, по принципу караоке,
— изменяемые шкурки тем оформления интерфейса,
— выбор голосового движка, тембра, громкости и быстроты воспроизведения,
— проверка орфографии перед прочтением,
— поддержка перетаскивания,
— работа с закладками,
— чтение электронных книг и офисных документов,
— чтение из архивов без распаковки,
— работа более чем с двадцатью форматами,
— преобразование текста в аудио файл.

Результат работы Balabolka может сохранить в аудиофайл: MP3, MP4, WAV, WMA, M4A, M4B, AWB, OGG для последующего воспроизведения на MP3/MP4 плеере, iPhone, iPad, iPod, смартфоне на Андроид, сотовом телефоне или другом оборудовании. При сохранении в MP3 доступна опция LRC-текста или ID3-тегов для синхронного отображения бегущей строки текста параллельно со звуком, по принципу караоке.

Наборы данных

Для этой модели нужно много речи. Ниже базы, которые в этом помогут.

Имя Язык Ссылка Комментарии Моя ссылка Комментарии
Словарь фонем En, Ru En,Ru link Совместил русский и английский фонемный словарь
LibriSpeech En link 300 голосов, 360ч чистой речи
VoxCeleb En 7000 голосов, много часов плохого звука
M-AILABS Ru link 3 голоса, 46ч чистой речи
open_tts, open_stt Ru open_tts, open_stt много голосов, много часов плохого звука link Почистил 4 часа речи одного спикера. Поправил аннотацию, разбил на отрезки до 7 секунд
Voxforge+audiobook Ru link много голосов, 25ч разного качества link Выбрал хорошие файлы. Разбил на отрезки. Добавил аудиокниг из интернета. Получилось 200 спикеров по паре минут на каждого
RUSLAN Ru link Один голос, 40ч чистой речи link Перекодировал в 16кГц
Mozilla Ru link 50 голосов, 30ч нормального качества link Перекодировал в 16кГц, Раскидал разных пользователей по папкам
Russian Single Ru link Один голос, 9ч чистой речи link

Начнем

hparams.pyhyperparams.py

hp.

Текст

aabbcc

  1. Я не добавлял в алфавит знаки препинания. С одной стороны, мы действительно их не произносим. С другой, по знакам препинания мы делим фразу на части (синтагмы), разделяя их паузами. Как система произнесет казнить нельзя помиловать?
  2. В алфавите нет цифр. Мы ожидаем, что они будут развернуты в числительные перед подачей на синтез, то есть нормализованы. Вообще все E2E-архитектуры, которые я видел, требуют именно нормализованный текст.
  3. В алфавите нет латинских символов. Английский система уметь произносить не будет. Можно попробовать транслитерацию и получить сильный русский акцент — пресловутый лет ми спик фром май харт.
  4. В алфавите есть буква ё. В данных, на который я обучал систему, она стояла там, где нужно, и я решил этот расклад не менять. Однако, в тот момент, когда я оценивал получившиеся результаты, выяснилось, что теперь перед подачей на синтез эту букву тоже нужно ставить правильно, иначе система произносит именно е, а не ё.

Итого

Мы получили модель многоязычного синтеза речи, умеющей клонировать голос.
Запустите toolbox:
Примеры можно послушать тут

Советы и выводы

  • Нужно много данных (>1000 голосов, >1000 часов)
  • Скорость работы сравнима с реальным временем только при синтезе минимум 4 предложений
  • Для кодера используйте предобученную модель для английского языка, немножко дообучив. Она справляется хорошо
  • Синтезатор, обученный на «чистых» данных, работает лучше, но хуже клонирует, чем тот, кто обучался на большем объёме, но грязных данных
  • Модель хорошо работает только на данных, на которых училась

Можете синтезировать свой голос онлайн с помощью colab, или посмотреть мою реализацию на github и скачать мои веса.

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий