6 инструментов для голосового ввода текста онлайн и офлайн

Что такое транскрибация

Транскрибация – это автоматический или ручной перевод речи в текст, точнее, запись аудио или видео-файла в текстовом виде.

Есть в интернете оплачиваемые платные задания, когда за транскрибацию текста исполнителю выплачивается некоторая сумма денег. В этом случае транскрибацию делают вручную.

Однако можно сделать транскрибацию автоматически, с помощью специальной программы, умеющей “слушать” текст и одновременно “печатать” его, превращать в текстовый файл, пригодный для дальнейшего использования.

Перевод речи в текст вручную или с помощью специальной программы полезен

  • студентам для перевода записанных аудио- или видео-лекций в текст,
  • блогерам, ведущим сайты и блоги,
  • писателям, журналистам для написания книг и текстов,
  • инфобизнесменам, которым нужен текст после проведенного ими вебинара, выступления и т.д.,
  • фрилансерам, которые вручную делают перевод речи в текст, для облегчения и ускорения своей работы,
  • людям, которым сложно печатать – они могут надиктовать письмо и послать его родным или близким,
  • другие варианты.

О проблемах автоматического перевода речи в текст

Можно выделить две крупных проблемы перевода речи в текст с помощью программы: качество записанной речи и наличие в записи фона в виде шума, музыки или иных посторонних звуков.

Речь у всех людей разная:

  • настолько быстрая, что слова проглатываются, или, наоборот, очень медленная;
  • с четкой дикцией, как у профессиональных дикторов, или настолько невыразительная, что сложно что-либо разобрать;
  • с отличным произношением или, напротив, с сильным акцентом, например, когда говорит иностранец.

В каких случаях программа автоматической транскрибации будет давать самый наилучший результат перевода речи в текст? Программа будет делать более или менее качественный перевод, когда на записи человек говорит с четкой дикцией, с нормальным темпом речи, без акцента. При этом в записи речи отсутствуют посторонние звуки в виде шума, музыки, разговоров других людей. Тогда можно надеяться на хороший автоматический перевод, не требующий ручных исправлений или с минимальными изменениями.

В остальных случаях, когда речь невыразительная и присутствуют посторонние шумы, перевод с помощью программы или приложения будет значительно хуже. Возможно, какая-то программа или сервис будет выполнять транскрибацию такой речи лучше, чем другие программы и приложения, но не стоит ожидать чуда.

В некоторых случаях стоит все-таки обратиться на биржу фриланса, где живой человек выполнит перевод вручную. Впрочем, здесь тоже нельзя гарантировать высокого качества, поскольку фрилансер может использовать программы автоматической транскрибации, и поленится вносить в получившийся текст правки.

Опишем наиболее эффективные инструменты, доступные на компьютере, мобильные приложения и онлайн-сервисы для перевода речи в текст.

Программы для чтения текста голосом

1. IVONA Reader

Сайт разработчика: www.ivona.com/

Одна из самых лучших программ для озвучивания текста.Позволяет вашему ПК читать не только простые текстовые файлы в формате txt, но и новости, RSS, любые веб-страницы в интернете, электронную почту и пр.

Кроме того, позволяет преобразовать текст в mp3 файл (который вы потом можете загрузить на любой телефон или mp3 плеер и слушать в дороге, например). Т.е. вы можете самостоятельно создавать аудио-книги!

Голоса программы IVONA очень похожи на реальный голос, достаточно не плохое произношение, не запинаются. Кстати, программа может быть полезна для тех, кто изучает иностранный язык. Благодаря ней можно слушать правильное произношение тех или иных слов, оборотов.

Поддерживает SAPI5, плюс к этому хорошо кооперируется с внешними приложениями (например, Apple Itunes, Skype).

Пример (текст воспроизведения одной моей недавней статьи)

Из минусов: некоторые незнакомые слова читает с неправильным ударением и интонацией. В целом же весьма не плохо, чтобы прослушать, например, параграф из книги по истории, пока идешь на лекцию/занятие — даже более чем!

2. Балаболка

Сайт разработчика: www.cross-plus-a.ru/balabolka.html

Программа «Балаболка», главным образом, предназначена для чтения вслух текстовых файлов. Для воспроизведения текста нужны, помимо программы, голосовые движки (синтезаторы речи).

Воспроизведение речи можно контролировать при помощи стандартных кнопок, подобных тем, что присутствуют в любой мультимедийной программе («воспроизвести/приостановить/остановить»).

Пример воспроизведения (тот же):

Минусы: некоторые незнакомые слова читает не правильно: ударение, интонация. Иногда, пропускает знаки препинания и не делает паузы между словами. Но в целом слушать можно.

Кстати, качество звучания сильно зависит от речевого движка, поэтому, в одной и той же программе звук воспроизведения текста может отличаться в разы!

3. ICE Book Reader

Сайт разработчика: www.ice-graphics.com/ICEReader/IndexR.html

Отличная программа для работы с книгами: чтение, каталогизирование, поиск нужной и пр. Помимо стандартных документов, которые могут читать и другие программы (TXT-HTML, HTML-TXT, TXT-DOC, DOC-TXT, PDB-TXT, LIT-TXT, FB2-TXT и т.д.) ICE Book Reader поддерживает файлы форматов: .LIT, .CHM и .ePub.

К тому же ICE Book Reader позволяет не только читать, но и отличная настольная библиотека:

— позволяет хранить, обрабатывать, каталогизировать книги (до 250000 тысяч экземпляров!);

— автоматическое упорядочивание вашей коллекции;

— быстрый поиск книги из вашей «свалки» (особенно актуально, если у вас много не каталогизированной литературы);

— ядро базы данных ICE Book Reader превосходит большинство программ подобного рода.

Так же программа позволяет озвучивать тексты голосом.

Lkя этого нужно зайти в настройки программы и настроить две вкладки: «Режим»(выбрать чтение голосом) и «Режим синтеза речи» (выбрать непосредственно сам голосовой движок).

4. Говорилка

Сайт программы: www.vector-ski.ru/vecs/govorilka/index.htm

Основные возможности программы «Говорилка»:

  1. Чтение текста голосом (открывает документы txt, doc, rtf, html и пр.);
  2. Позволяет записывать текст из книги в форматы (*.WAV, *.MP3) с повышенной скоростью — т.е. по сути создание электронной аудио-книги;
  3. Хорошие функции по регулировке скорости чтения;
  4. Авто прокрутка читаемого текста;
  5. Возможность пополнения словарей произношения;
  6. Поддерживает старые файлы из времен DOS (многие современные программы не могут прочитать файлы в подобной кодировке);
  7. Размер файла, из которого программа может прочитать текст: до 2 гигабайт;
  8. Возможность делать закладки: при выходе из программы, она автоматически запоминает место остановки курсора.

5. Sakrament Talker

Сайт разработчика: sakrament.by/index.html

С помощью Sakrament Talker можно превратить свой компьютер в «говорящую» аудио книгу! Программа Sakrament Talker поддерживает форматы RTF и TXT,может автоматически распознавать кодировку файла (наверное, иногда замечали, что некоторые программы открывают файл с «крякозабрами» вместо текста, так вот в Sakrament Talker такое невозможно!).

Кроме того Sakrament Talker позволяет воспроизводить достаточно большие файлы, быстро находить те или иные файлы. Озвученный текст можно не только прослушать на компьютере, но и сохранить в mp3 файл (который в последствии можно скопировать на любой плеер или телефон и прослушивать вдалеке от ПК).

В целом довольно не плохая программа, которая поддерживает все популярные голосовые движки.

ОБЩИЕ ПОНЯТИЯ О ТРАНСКРИБАЦИИ

Рассказать о ней в
«двух словах» проще «пареной репы», но результата от такого рассказа вы не
получите. Поэтому, я расскажу о транскрибации много, но, по существу.

Транскрибация — это
перевод аудио или видео форматов в текст. Чем-то отдалённо напоминает
стенографию. В настоящее время услуга очень востребована.

Транскрибация делится
на три вида:

Первый – это просто
голос.

Например, журналист
наговаривает себе на диктофон запись или студент записывает на диктофон лекцию,
которую впоследствии нужно будет перевести в текст.

Если есть возможность
подключить к микрофону программу для автоматической транскрибации, то тогда она
будет сразу же переводить голос в текст, который после небольшой правки будет
полностью готов к дальнейшему использованию.

Но если такой
возможности нет, то тогда используют сначала диктофон, а потом с диктофона
через микрофон наговаривают текст с использованием программы. Используется этот
вид довольно редко и у заказчиков особой популярностью не пользуется.

Второй – аудиофайлы.

Они позволяют
производить расшифровку полностью или частично, в зависимости от качества
аудиозаписи. После некоторой правки результат можно сразу отправлять заказчику.

Огромный плюс этого
вида — все программы по автоматической или полуавтоматической транскрибации
имеют широкий набор типов аудиофайлов и расширений.

Но имеются и минусы:
не видно действий, места, времени, количество участников, событий. Совершенно
непонятна суть происходящего.

Если запись чёткая, то
ещё полбеды, а если плохая, да к тому с несколькими участниками, то над
переводом придётся изрядно попотеть.

Третий – видеофайлы.

Начну сразу с плюсов.
При плохой записи звука, можно без труда догадаться о сути происходящих
событий, по артикуляции и жестикуляции действий героев.

Но один серьёзный
недостаток сразу портит всю картину — не все программы для автоматической
транскрибации имеют возможность принимать видеофайлы.

В большинстве случаев
требуется разделять файлы на два отдельных формата: аудио и видео, т.е.
разделять дорожки, а это уже дополнительная проблема, так как для этого
требуется дополнительное время.

От того, в каком
формате получен первоначальный файл от заказчика и в каком виде его нужно
предоставить ему обратно зависит:

  1. Объём выполняемой работы.
  2. Время, потраченное на его выполнение.
  3. Уровень сложности.
  4. Требование к корректуре.
  5. Ваше итоговое вознаграждение.

Иногда, корректировка
текста может занимать гораздо больше времени, чем непосредственная расшифровка
самой записи.

Рассмотрим три
основных формата корректировки:

Без корректуры, т.е. сразу после расшифровки файла программой текст «один в
один» передаётся заказчику. Этот вид считается самым простым, поэтому и
оплачивается очень дёшево.

Для примера, возьмём
первый попавшийся ролик на Ютуб.

Помимо видео просмотра
в любой момент можно посмотреть текст. Для этого достаточно нажать на (1),
далее на (2) и тут же открывается сам текст (3).

Базовая корректировка, т.е. требуется привести текст к читабельному виду:
строчки должны быть расположены на всю ширину листа и проставлены все
необходимые знаки препинания. Для выполнений такой корректировки нужно
потратить n-е количество времени, следовательно, оплата уже идёт выше, чем за
«голую» расшифровку.

Улучшенная корректировка, т.е. требуется добавить форматирование. Какое
именно, заказчик указывает сам. Это могут быть заголовки, шрифты, таблицы,
абзацы и т.д. Соответственно и стоимость за этот формат самая высокая.

Называться эти форматы
могут, абсолютно, по-разному, поэтому очень важно уточнять у заказчика
скрупулёзно все детали, вплоть до самых незначительных мелочей. Если изначально упустить этот
момент из виду, то придётся переделывать работу до «колючих ёжиков»

Ведь,
исходя из объёма и сложности работы, зависит окончательная цена

Если изначально упустить этот
момент из виду, то придётся переделывать работу до «колючих ёжиков». Ведь,
исходя из объёма и сложности работы, зависит окончательная цена.

Очень часто заказчики
пытаются обмануть своих исполнителей, не договаривая того, что они хотят
получить в итоге, а потом просто не оплачивают работу до тех пор, пока не
выполнишь все их требования.

Например, вы в «общих
чертах» договорились с заказчиком о базовой корректировки текста, а он стал
требовать от вас, за те же деньги, с форматированием. И так бывает «часто и
густо».

Так что будьте
внимательны.

Программы для озвучки текста

Если вам нужно постоянно озвучивать большие объемы текста из электронных документов, то самый удобный вариант — установить специальные приложения, которые умеют работать с файлами разного формата.

Балаболка

Балаболка — бесплатная программа озвучки для Windows от российских разработчиков. Она поддерживает работу с любыми голосовыми движками, установленными в системе. В ее интерфейсе есть стандартные инструменты для управления воспроизведением: пауза, остановка, перемотка, изменение скорости и громкости.

«Балаболка» умеет читать вслух текст из буфера обмена, произносить набираемые на клавиатуре фразы, озвучивать содержимое редактора или загруженных в нее файлов в форматах AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, WPD, XLS, XLSX.

Результат обработки «Балаболка» сохраняет как аудиофайл в форматах WAV, MP3, MP4, OGG и WMA. У нее также есть возможность сохранения текста внутри файлов MP3 для дальнейшего отображения в виде субтитров в медиапроигрывателе.

Govorilka

Govorilka — ещё одна программа для озвучки с минималистичным интерфейсом. Поддерживает голосовые движки устаревшего стандарта SAPI 4, в том числе на иностранных языках.

По умолчанию Govorilka озвучивает текст голосом стандартного движка Microsoft. В ее составе есть инструменты управления, традиционные для программ такого типа: воспроизведение, пауза, остановка, изменение скорости, громкости и высоты голоса. Одновременно в ней можно открыть до 8 вкладок с разными фрагментами текста.

Несмотря на простоту и устаревший интерфейс, «Говорилка» всё еще актуальна. Она умеет распознавать текстовые документы в разных форматах объёмом до 2 Гб и сохранять результат обработки в MP3 и WAV.

eSpeak

eSpeak — бесплатная программа для озвучки текста, доступная на Windows, macOS, Linux и Android. Она использует голосовые движки, установленные в системе, а также добавляет к ним несколько своих.

Версия этого приложения для Windows имеет максимально простой интерфейс и управление. Текст, который нужно прочитать, достаточно вставить в поле посредине окна, а затем нажать “Speak”.

Максимальный размер текста здесь явно не определен, но приложение справляется с большими объёмами. Также у него есть возможность читать тексты из файлов с расширением TXT, другие форматы не поддерживаются.

Для управления скоростью чтения в eSpeak используется ползунок Rate. Если вы хотите сохранить прочитанный текст в аудиофайл, нажмите на кнопку «Save to .wav» и задайте имя записи.

В мобильной версии приложения для Android аналогичная функциональность, разве что нет возможности сохранить текст в аудио.

Acapela TTS

Acapela Group разрабатывает программы для всех популярных операционных систем: Windows, macOS, Linux. Android, iOS. Среди главных достоинств этого софта — поддержка большого количества языков и отличное качество голоса. Мощные движки хорошо обучены и имеют развёрнутую справочную базу, которая позволяет им говорить правильно и выразительно.

Однако все продукты Acapela коммерческие. Установить приложение на компьютер или телефон можно бесплатно, но без купленного голосового движка в них нет никакого смысла. Стоимость одного пакета — 3,99 евро. Прежде чем оплачивать покупку, вы можете прослушать демо голоса с произвольным текстом, чтобы определить, подходит ли вам такое звучание.

ICE Book Reader Professional

Если вы ищите программу, которая будет озвучивать целые книги, то попробуйте ICE Book Reader Professional. Это приложение поддерживает различные форматы текстовых документов: TXT, HTML, XML, RTF, DOC и DOCX, PALM (.PDB и .PRC), PSION/EPOC (.TCR), Microsoft Reader (.LIT), Microsoft HELP files (.CHM) и FictionBook файлы (все версии) (.FB2, .XML). А для чтения в нем используются голосовые движки стандарта SAPI 4 и 5.

Программа умеет превращать книги в MP3/WAV-файлы. Это значит, что вы можете из любого произведения, доступного в текстовом формате, сделать аудиокнигу.

Скорость преобразования текста в голос в этом приложении увеличивается за счёт одновременного использования нескольких модулей синтеза речи.

Программы для воспроизведения текста голосом

Говорилка

Говорилка – программа для озвучивания текста на русском языке для любителей слушать, к сожалению не доступна в онлайн режиме. Поддерживает загрузку дополнительных речевых движков и языковой библиотеке прямо с официального сайта. Обладает полезными функциями:

  • Запись речи в аудио файл (*.WAV, *.MP3) с регулируемой скоростью воспроизведения.
  • Настройка скорости воспроизведения и тональности голоса в утилите.
  • Обработка текстов с интернет страниц и пакета офисных приложений.
  • Запоминание положения курса при выходе из программы.
  • Неограниченный объем читаемых символов.

Sacrament Talker

Уникальность Sacrament Talker заключается в том, что он работает на собственной системе озвучивания речи TTS Engine 3.0, где доступно шесть русских голосов. Как и другие программы обрабатывает текст из браузера, офисных приложений, а также сохраняет озвучку в MP3 формате.

2nd Speech Center

2nd Speech Center – очередной помощник, оберегающий зрение. Обладает максимально понятным пользовательским интерфейсом. Поддерживает запись произносимого текста в форматах mp3/wav. Обрабатывает форматы: .txt, .doc, .pdf, .eml, .rtf, .htm, .html.

Audiobook Recorder

Audiobook Recorder больше напоминает продвинутую аудиокнигу, чем традиционную говорилку. Утилита специализируется на конвертации текстовых документов в MP3. Отличительной особенностью программы служит наличие функции «Умная пауза», улучшающая качество чтения.

TNR JayJay

Утилита TNR JayJay – развлекательная говорилка, которая поможет узнать, как бы звучала фамилия пользователя на японском языке. Софт ориентирован на поклонников аниме, поскольку функцию голосов исполняют милые 2D девушки. При желании вы можете сохранить записанный материал на компьютере и поделиться полученным каламбуром с друзьями.

Балаболка

Балаболка – универсальная программа для чтения вслух, поддерживающая огромное количество форматов, начиная от страниц в браузере и заканчивая DjVu файлами. Имеет в распоряжении функционал текстового редактора, а также сохраняет озвученный текст на компьютере.

Говорун+

Говорун+ — компактная программа, которая может читать текст вслух на русском. Работает на предустановленном синтезаторе речи и использует встроенные голосовые движки. Читает RTF и TXT файлы. Дополнительно имеется плеер для воспроизведения записанных звуков, система оповещения, работа в трее и редактируемый интерфейс. Приятно порадует анимированные персонажи, выполняющие функции дикторов.

Foxit Reader

Foxit Reader – небольшая утилита для преобразования текста в речь, сосредоточенная на чтении PDF файлов. Отличается оперативной скоростью обработки данных и нетребовательностью к техническим ресурсам ПК. Отдельного внимания заслуживает дружелюбный пользовательский интерфейс, где управление инструментами редактирования осваиваются на интуитивном уровне.

Demagog

Проект Demagog – полезная утилита, которая больше походит на продвинутый текстовый редактор. Благодаря широким возможностям подходить не только для чтения и воспроизведения текстов, но и справляется с литературными произведениями. Порадует аудиалов следующими функциями:

  • Наличие инструментов форматирования, как в стандартных текстовых редакторах.
  • Уникальный алгоритм корректировки произношения.
  • Подсветка орфографических ошибок и омографов.
  • Распознавание многоязычных документов.
  • Поддержка словарей произношения DIC.

ICE Book Reader

ICE Book Reader – многофункциональная говорилка, которая не только озвучивает записанный русский и английский текст, но и конвертирует некоторые файлы. Специализируется на чтении книг. Отлично справляется с большинством известных форматов, а также имеет несколько полезных опций:

  • Пять режимов для пролистывания текста.
  • Оптимизация со всеми версиями ОС Windows.
  • Несколько тем оформления рабочего меню софта.
  • Стильный и удобный пользовательский интерфейс.
  • Корректное распознание не алфавитных символов.
  • Управление книжными коллекциями и автоматическая сортировка информации.

RussAcc

Проект RussAcc специализируется на воспроизведении русской речи. Представленная программа умеет правильно расставлять ударения при произношении, а также выделяет ударение на письме.

Дополнительно RussAcc используется, как текстовый редактор (форматирование текста) и конвертер FB2 в TXT. Имеется система закладок и запоминания читаемого фрагмента при выходе.

Усовершенствовать ручную расшифровку

Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.

oTranscribe

Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.

Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.

Интерфейс oTranscribeИнтерфейс oTranscribe

Express Scribe

Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.

Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.

Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro ​​и другими текстовыми процессорами под Windows).

Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.

Так выглядит окно Express Scribe

Transcriber Pro

Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.

В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.

Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.

Видеообзор программы.

LossPlay

Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.

Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.

Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.

Такой вот внешний вид у LossPlay

Универсальное решение: wreally.com

Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.

Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.

Так выглядит инструмент для ручной транскрибации

Пример работы авторасшифровщика

Онлайн синтезаторы речи на русском языке

Количество русскоязычных пользователей мобильных устройств Android и IOS постоянно растет. Разработчики давно уловили эту тенденцию: русский язык есть фактически в каждом синтезаторе речи. Но Google Переводчик, Text-to-speech и Яндекс.Алиса занимают особое место в данной категории за счет богатого набора слов и широкого набора функций.

Google Переводчик
Бесплатное приложение от Google переводит текст на несколько десятков языков после ввода символов в электронную форму или фокусировки камеры мобильного устройства на конкретном слове и предложении. Несмотря на то, что программа предназначена для перевода, она может синтезировать речь. Чтобы услышать слова робота на русском языке, нужно ввести текст в электронную форму. Робот прочитает текст на русском после активации клавиши «прослушать». Качество синтеза относительно хорошее, но иногда речь получается рваной.

Text-to-speech
Text-to-speech – приложение, предназначенное для простого преобразования печатного текста в устную речь. Программа читает разные тексты и электронные документы, даже если в них перемешаны слова из разных языков. Преобразованный текст можно сохранить для дальнейшего применения в формате wav. Здесь, по аналогии с подобными программами, настраивается скорость речи, размер шрифта, есть опции для пользователей с ограниченными возможностями.

Яндекс Алиса
Яндекс.Алиса – многофункциональный синтезатор речи на русском языке, способный поддержать разговор с пользователем на множество тем, выполнять голосовые команды, запускать некоторые приложения, Используемые здесь технологии нельзя назвать инновационными, они уже были ранее применены Google. Пользователь отправляет «Алисе» свое сообщение, записанное голосом или текстом. Сообщение распознается, выбирается один из нескольких тысяч шаблонных ответов и отправляется в виде ответа пользователю. По уровню развития искусственного интеллекта этот бот немного впереди предшественников – голосовой движок работает хорошо, разрывов в речи фактически нет. Но периодически бот выдает ответы, не имеющие связи с заданным вопросом. Разработчикам еще предстоит много работы над оптимизацией данного приложения, но уже сейчас ясно, что у него отличные перспективы.

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий