Что такое синтезаторы речи? Лучшие синтезаторы речи. Синтезаторы речи с русскими голосами. Как пользоваться синтезатором речи? Работа со сложными программами

eSpeak
Тип синтезатор речи
Автор Джонатан Даддингтон (англ. Jonathan Duddington)
Написана на C++
Операционная система Linux и др. UNIX-подобные , Windows
Первый выпуск 2006
Последняя версия 1.48.04 (6 апреля )
Состояние неактивное
Лицензия GNU GPL
Сайт

Операционные системы

Версии eSpeak существуют под такие операционные системы как Microsoft Windows , Mac OS X , Linux , RISC OS , а также доступен его исходный код на языке C++ . Кроме того в официальной документации синтезатора даётся инструкция по его компиляции под Windows Mobile . Программа имеет одно существенное ограничение - генерация голоса возможна только в WAV файл.

Помимо этого, eSpeak используется в мобильных операционных системах Android , начиная с версии 1.6, и Maemo , но эти проекты не курируются лично разработчиком, и на официальном сайте eSpeak соответствующие пакеты отсутствуют, да и Android -версия обладает рядом существенных ошибок при работе на некоторых языках, в частности и русском.

Поддерживаемые языки

eSpeak поддерживает около пяти десятков различных языков. При инсталляции, пользователю требуется указать, поддержка каких именно диалектов его интересует.

Ниже представлен список языков, поддерживаемых синтезатором eSpeak, и их обозначений, которые используются в его настройках.

  • Албанский - sq
  • Английский (американский) - en-us
  • Английский (британский с северным акцентом) - en-n
  • Английский (британский с Уэст-Мидлендским акцентом) - en-wm
  • Английский (классический британский) - en
  • Английский (общепринятый разговорный) - en-rp
  • Английский (шотландский) - en-sc
  • Армянский (западный) - hy-west
  • Армянский (классический) - hy
  • Африкаанс - af
  • Боснийский - bs
  • Валлийский - cy
  • Венгерский - hu
  • Вьетнамский - vi
  • Голландский - nl
  • Голоса MBROLA (голос xxx) - mb-xxx
  • Греческий - el
  • Древнегреческий - grc
  • Индонезийский - id
  • Исландский - is
  • Испанский (классический) - es
  • Испанский (латиноамериканский) - es-la
  • Итальянский - it
  • Каталанский - ca
  • Китайский (кантонский диалект) - zh-yue
  • Китайский (путунхуа) - zh
  • Курдский - ku
  • Латинский - la
  • Латышский - lv
  • Ложбан - jbo
  • Македонский - mk
  • Немецкий - de
  • Норвежский - no
  • Польский - pl
  • Португальский (бразильский) - pt
  • Португальский (европейский) - pt-pt
  • Румынский - ro
  • Русский - ru
  • Сербский - sr
  • Словацкий - sk
  • Словенский - sw
  • Тамильский - ta
  • Турецкий - tr
  • Финский - fi
  • Французский - fr
  • Хинди - hi
  • Хорватский - hr
  • Чешский (разговорный) - cs
  • Шведский - sv
  • Эсперанто - eo

Список поддерживаемых языков также может быть расширен при помощи использования голосовых библиотек MBROLA, которые можно подключить к eSpeak.

eSpeak и MBROLA

MBROLA - это особый дифонный алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии преобразования текста в речь (TTS). Данный проект является рекордсменом среди прочих технологий синтеза речи по количеству различных языков, для которых он использовался. Хотя для некоторых распространённых языков MBROLA-голоса не созданы до сих пор, в том числе и для русского.

eSpeak может работать в связке с MBROLA, что обеспечивает возможность использовать голосовые библиотеки этого проекта как составную часть самого eSpeak. Это позволяет ещё больше расширить список поддерживаемых языков для синтезирования речи по тексту.

Использовать связку eSpeak и MBROLA можно на таких операционных системах как Windows , Linux и Mac OS X .

Однако интеграцию с eSpeak поддерживают не все голосовые библиотеки MBROLA.

Принципы реализации

Слова входного текста для синтезирования проходят два этапа обработки:

  • слово в буквенном представлении преобразуется в последовательность фонем;
  • генерируется звуковой сигнал на основе полученной последовательности.

Правила для получения последовательности фонем хранятся в виде «A, B, C = D». Где B - это рассматриваемая буква, A и C - контекст окружения этой буквы в слове, и D - это фонема, в которую эта буква может быть преобразована. Контекст окружения может задаваться как конкретными буквами, так и специальными символами, обозначающими группы букв. Правила синтезатора допускают неоднозначное определение таких цепочек. Для разрешения этой неоднозначности синтезатор назначает приоритет каждому правилу, который вычисляется на основе количества букв, задействованных в правиле, и степени конкретности определения контекста окружения. В правилах также можно указывать различия в трансляции в зависимости от ударения.

В eSpeak гласные звуки всегда синтезируются, звонкие согласные получаются путём смешивания синтезируемых звуков с предварительно записанными шумами голоса, а все остальные звуки просто записаны, например, [ш].

Каждый звук, кроме глухих согласных, представлен последовательностью формант. Помимо информации о формантах, каждая фонема имеет информацию о своей амплитуде, длительности звучания и задержке перед последующей фонемой. На основе этих параметров синтезируется звук гласной буквы при помощи алгоритмов, реализованных в синтезаторе. Информация о фонемах и формантах хранится в отдельных файлах, также впоследствии компилируемых в бинарный формат.

Вместе с синтезатором поставляется утилита eSpeak Edit. Это GUI-приложение, написанное при помощи библиотеки WXLib. Оно позволяет визуально редактировать готовые фонемы. Фонема представляется в виде графика кривой, где последовательно можно выбирать форманты и изменять их значения, такие как частота, высота и ширина. Благодаря этим возможностям, на основе уже готовых фонем можно получать новые, более верные звуки для некоторого языка. В то же время, некоторые из фонем получить модификацией существующих не получается. Например, при разработке русскоязычной части eSpeak был специально записан звук [р], так как для него не нашлось достойного аналога в других языках.

Проекты с использованием eSpeak

Сторонние дополнения

Некоторые языки не обладают простыми и универсальными правилами построения грамотной речи и eSpeak требуются дополнительные компоненты, чтобы производить качественный синтез на этих языках. Для того, чтобы избежать увеличения размера основного пакета eSpeak, эти компоненты распространяются отдельно. В частности, в русском языке нет общих правил, устанавливающих ударный слог в словах. В этих случаях eSpeak пытается определить ударение слова, но данное произношение часто не соответствует правильному. Для решения данной задачи существует специальный расширенный словарь произношения, который надо установить отдельно от основного пакета eSpeak.

Помимо русского, сторонние компоненты коррекции речи eSpeak ещё есть для китайского (путунхуа и кантонский).

Скачать эти словари можно с официального сайта проекта.

К:Википедия:Статьи без изображений (тип: не указан) К:Программное обеспечение, разработанное в 2006 году

eSpeak это компактный свободный программный синтезатор речи , поддерживающий Speech Synthesis Markup Language (SSML).

Операционные системы

Версии eSpeak существуют под такие операционные системы как Microsoft Windows , Mac OS X , Linux , RISC OS , а также доступен его исходный код на языке C++ . Кроме того в официальной документации синтезатора даётся инструкция по его компиляции под Windows Mobile . Программа имеет одно существенное ограничение - генерация голоса возможна только в WAV файл.

Помимо этого, eSpeak используется в мобильных операционных системах Android , начиная с версии 1.6, и Maemo , но эти проекты не курируются лично разработчиком, и на официальном сайте eSpeak соответствующие пакеты отсутствуют, да и Android -версия обладает рядом существенных ошибок при работе на некоторых языках, в частности и русском.

Поддерживаемые языки

eSpeak поддерживает около пяти десятков различных языков. При инсталляции, пользователю требуется указать, поддержка каких именно диалектов его интересует.

Ниже представлен список языков, поддерживаемых синтезатором eSpeak, и их обозначений, которые используются в его настройках.

  • Албанский - sq
  • Английский (американский) - en-us
  • Английский (британский с северным акцентом) - en-n
  • Английский (британский с Уэст-Мидлендским акцентом) - en-wm
  • Английский (классический британский) - en
  • Английский (общепринятый разговорный) - en-rp
  • Английский (шотландский) - en-sc
  • Армянский (западный) - hy-west
  • Армянский (классический) - hy
  • Африкаанс - af
  • Боснийский - bs
  • Валлийский - cy
  • Венгерский - hu
  • Вьетнамский - vi
  • Голландский - nl
  • Голоса MBROLA (голос xxx) - mb-xxx
  • Греческий - el
  • Древнегреческий - grc
  • Индонезийский - id
  • Исландский - is
  • Испанский (классический) - es
  • Испанский (латиноамериканский) - es-la
  • Итальянский - it
  • Каталанский - ca
  • Китайский (кантонский диалект) - zh-yue
  • Китайский (путунхуа) - zh
  • Курдский - ku
  • Латинский - la
  • Латышский - lv
  • Ложбан - jbo
  • Македонский - mk
  • Немецкий - de
  • Норвежский - no
  • Польский - pl
  • Португальский (бразильский) - pt
  • Португальский (европейский) - pt-pt
  • Румынский - ro
  • Русский - ru
  • Сербский - sr
  • Словацкий - sk
  • Словенский - sw
  • Тамильский - ta
  • Турецкий - tr
  • Финский - fi
  • Французский - fr
  • Хинди - hi
  • Хорватский - hr
  • Чешский (разговорный) - cs
  • Шведский - sv
  • Эсперанто - eo

Список поддерживаемых языков также может быть расширен при помощи использования голосовых библиотек MBROLA, которые можно подключить к eSpeak.

eSpeak и MBROLA

MBROLA - это особый дифонный алгоритм синтеза речи, на основе которого создано множество различных программных продуктов с включением технологии преобразования текста в речь (TTS). Данный проект является рекордсменом среди прочих технологий синтеза речи по количеству различных языков, для которых он использовался. Хотя для некоторых распространённых языков MBROLA-голоса не созданы до сих пор, в том числе и для русского.

eSpeak может работать в связке с MBROLA, что обеспечивает возможность использовать голосовые библиотеки этого проекта как составную часть самого eSpeak. Это позволяет ещё больше расширить список поддерживаемых языков для синтезирования речи по тексту.

Использовать связку eSpeak и MBROLA можно на таких операционных системах как Windows , Linux и Mac OS X .

Однако интеграцию с eSpeak поддерживают не все голосовые библиотеки MBROLA.

Принципы реализации

Слова входного текста для синтезирования проходят два этапа обработки:

  • слово в буквенном представлении преобразуется в последовательность фонем;
  • генерируется звуковой сигнал на основе полученной последовательности.

Правила для получения последовательности фонем хранятся в виде «A, B, C = D». Где B - это рассматриваемая буква, A и C - контекст окружения этой буквы в слове, и D - это фонема, в которую эта буква может быть преобразована. Контекст окружения может задаваться как конкретными буквами, так и специальными символами, обозначающими группы букв. Правила синтезатора допускают неоднозначное определение таких цепочек. Для разрешения этой неоднозначности синтезатор назначает приоритет каждому правилу, который вычисляется на основе количества букв, задействованных в правиле, и степени конкретности определения контекста окружения. В правилах также можно указывать различия в трансляции в зависимости от ударения.

В eSpeak гласные звуки всегда синтезируются, звонкие согласные получаются путём смешивания синтезируемых звуков с предварительно записанными шумами голоса, а все остальные звуки просто записаны, например, [ш].

Каждый звук, кроме глухих согласных, представлен последовательностью формант. Помимо информации о формантах, каждая фонема имеет информацию о своей амплитуде, длительности звучания и задержке перед последующей фонемой. На основе этих параметров синтезируется звук гласной буквы при помощи алгоритмов, реализованных в синтезаторе. Информация о фонемах и формантах храниться в отдельных файлах, также впоследствии компилируемых в бинарный формат.

Вместе с синтезатором поставляется утилита eSpeak Edit. Это GUI-приложение, написанное при помощи библиотеки WXLib. Оно позволяет визуально редактировать готовые фонемы. Фонема представляется в виде графика кривой, где последовательно можно выбирать форманты и изменять их значения, такие как частота, высота и ширина. Благодаря этим возможностям, на основе уже готовых фонем можно получать новые, более верные звуки для некоторого языка. В то же время, некоторые из фонем получить модификацией существующих не получается. Например, при разработке русскоязычной части eSpeak был специально записан звук [р], так как для него не нашлось достойного аналога в других языках.

Проекты с использованием eSpeak

Сторонние дополнения

Некоторые языки не обладают простыми и универсальными правилами построения грамотной речи и eSpeak требуются дополнительные компоненты, чтобы производить качественный синтез на этих языках. Для того, чтобы избежать увеличения размера основного пакета eSpeak, эти компоненты распространяются отдельно. В частности, в русском языке нет общих правил, устанавливающих ударный слог в словах. В этих случаях eSpeak пытается определить ударение слова, но данное произношение часто не соответствует правильному. Для решения данной задачи существует специальный расширенный словарь произношения, который надо установить отдельно от основного пакета eSpeak.

Помимо русского, сторонние компоненты коррекции речи eSpeak ещё есть для китайского (путунхуа и кантонский).

Скачать эти словари можно с официального сайта проекта.

См. также

Напишите отзыв о статье "ESpeak"

Примечания

Ссылки

  • на .

Отрывок, характеризующий ESpeak

Солдаты товарищи, шедшие рядом с Пьером, не оглядывались, так же как и он, на то место, с которого послышался выстрел и потом вой собаки; но строгое выражение лежало на всех лицах.

Депо, и пленные, и обоз маршала остановились в деревне Шамшеве. Все сбилось в кучу у костров. Пьер подошел к костру, поел жареного лошадиного мяса, лег спиной к огню и тотчас же заснул. Он спал опять тем же сном, каким он спал в Можайске после Бородина.
Опять события действительности соединялись с сновидениями, и опять кто то, сам ли он или кто другой, говорил ему мысли, и даже те же мысли, которые ему говорились в Можайске.
«Жизнь есть всё. Жизнь есть бог. Все перемещается и движется, и это движение есть бог. И пока есть жизнь, есть наслаждение самосознания божества. Любить жизнь, любить бога. Труднее и блаженнее всего любить эту жизнь в своих страданиях, в безвинности страданий».
«Каратаев» – вспомнилось Пьеру.
И вдруг Пьеру представился, как живой, давно забытый, кроткий старичок учитель, который в Швейцарии преподавал Пьеру географию. «Постой», – сказал старичок. И он показал Пьеру глобус. Глобус этот был живой, колеблющийся шар, не имеющий размеров. Вся поверхность шара состояла из капель, плотно сжатых между собой. И капли эти все двигались, перемещались и то сливались из нескольких в одну, то из одной разделялись на многие. Каждая капля стремилась разлиться, захватить наибольшее пространство, но другие, стремясь к тому же, сжимали ее, иногда уничтожали, иногда сливались с нею.
– Вот жизнь, – сказал старичок учитель.
«Как это просто и ясно, – подумал Пьер. – Как я мог не знать этого прежде».
– В середине бог, и каждая капля стремится расшириться, чтобы в наибольших размерах отражать его. И растет, сливается, и сжимается, и уничтожается на поверхности, уходит в глубину и опять всплывает. Вот он, Каратаев, вот разлился и исчез. – Vous avez compris, mon enfant, [Понимаешь ты.] – сказал учитель.
– Vous avez compris, sacre nom, [Понимаешь ты, черт тебя дери.] – закричал голос, и Пьер проснулся.
Он приподнялся и сел. У костра, присев на корточках, сидел француз, только что оттолкнувший русского солдата, и жарил надетое на шомпол мясо. Жилистые, засученные, обросшие волосами, красные руки с короткими пальцами ловко поворачивали шомпол. Коричневое мрачное лицо с насупленными бровями ясно виднелось в свете угольев.
– Ca lui est bien egal, – проворчал он, быстро обращаясь к солдату, стоявшему за ним. – …brigand. Va! [Ему все равно… разбойник, право!]
И солдат, вертя шомпол, мрачно взглянул на Пьера. Пьер отвернулся, вглядываясь в тени. Один русский солдат пленный, тот, которого оттолкнул француз, сидел у костра и трепал по чем то рукой. Вглядевшись ближе, Пьер узнал лиловую собачонку, которая, виляя хвостом, сидела подле солдата.
– А, пришла? – сказал Пьер. – А, Пла… – начал он и не договорил. В его воображении вдруг, одновременно, связываясь между собой, возникло воспоминание о взгляде, которым смотрел на него Платон, сидя под деревом, о выстреле, слышанном на том месте, о вое собаки, о преступных лицах двух французов, пробежавших мимо его, о снятом дымящемся ружье, об отсутствии Каратаева на этом привале, и он готов уже был понять, что Каратаев убит, но в то же самое мгновенье в его душе, взявшись бог знает откуда, возникло воспоминание о вечере, проведенном им с красавицей полькой, летом, на балконе своего киевского дома. И все таки не связав воспоминаний нынешнего дня и не сделав о них вывода, Пьер закрыл глаза, и картина летней природы смешалась с воспоминанием о купанье, о жидком колеблющемся шаре, и он опустился куда то в воду, так что вода сошлась над его головой.
Перед восходом солнца его разбудили громкие частые выстрелы и крики. Мимо Пьера пробежали французы.
– Les cosaques! [Казаки!] – прокричал один из них, и через минуту толпа русских лиц окружила Пьера.
Долго не мог понять Пьер того, что с ним было. Со всех сторон он слышал вопли радости товарищей.
– Братцы! Родимые мои, голубчики! – плача, кричали старые солдаты, обнимая казаков и гусар. Гусары и казаки окружали пленных и торопливо предлагали кто платья, кто сапоги, кто хлеба. Пьер рыдал, сидя посреди их, и не мог выговорить ни слова; он обнял первого подошедшего к нему солдата и, плача, целовал его.
Долохов стоял у ворот разваленного дома, пропуская мимо себя толпу обезоруженных французов. Французы, взволнованные всем происшедшим, громко говорили между собой; но когда они проходили мимо Долохова, который слегка хлестал себя по сапогам нагайкой и глядел на них своим холодным, стеклянным, ничего доброго не обещающим взглядом, говор их замолкал. С другой стороны стоял казак Долохова и считал пленных, отмечая сотни чертой мела на воротах.
– Сколько? – спросил Долохов у казака, считавшего пленных.
– На вторую сотню, – отвечал казак.
– Filez, filez, [Проходи, проходи.] – приговаривал Долохов, выучившись этому выражению у французов, и, встречаясь глазами с проходившими пленными, взгляд его вспыхивал жестоким блеском.
Денисов, с мрачным лицом, сняв папаху, шел позади казаков, несших к вырытой в саду яме тело Пети Ростова.

С 28 го октября, когда начались морозы, бегство французов получило только более трагический характер замерзающих и изжаривающихся насмерть у костров людей и продолжающих в шубах и колясках ехать с награбленным добром императора, королей и герцогов; но в сущности своей процесс бегства и разложения французской армии со времени выступления из Москвы нисколько не изменился.
От Москвы до Вязьмы из семидесятитрехтысячной французской армии, не считая гвардии (которая во всю войну ничего не делала, кроме грабежа), из семидесяти трех тысяч осталось тридцать шесть тысяч (из этого числа не более пяти тысяч выбыло в сражениях). Вот первый член прогрессии, которым математически верно определяются последующие.
Французская армия в той же пропорции таяла и уничтожалась от Москвы до Вязьмы, от Вязьмы до Смоленска, от Смоленска до Березины, от Березины до Вильны, независимо от большей или меньшей степени холода, преследования, заграждения пути и всех других условий, взятых отдельно. После Вязьмы войска французские вместо трех колонн сбились в одну кучу и так шли до конца. Бертье писал своему государю (известно, как отдаленно от истины позволяют себе начальники описывать положение армии). Он писал:
«Je crois devoir faire connaitre a Votre Majeste l"etat de ses troupes dans les differents corps d"annee que j"ai ete a meme d"observer depuis deux ou trois jours dans differents passages. Elles sont presque debandees. Le nombre des soldats qui suivent les drapeaux est en proportion du quart au plus dans presque tous les regiments, les autres marchent isolement dans differentes directions et pour leur compte, dans l"esperance de trouver des subsistances et pour se debarrasser de la discipline. En general ils regardent Smolensk comme le point ou ils doivent se refaire. Ces derniers jours on a remarque que beaucoup de soldats jettent leurs cartouches et leurs armes. Dans cet etat de choses, l"interet du service de Votre Majeste exige, quelles que soient ses vues ulterieures qu"on rallie l"armee a Smolensk en commencant a la debarrasser des non combattans, tels que hommes demontes et des bagages inutiles et du materiel de l"artillerie qui n"est plus en proportion avec les forces actuelles. En outre les jours de repos, des subsistances sont necessaires aux soldats qui sont extenues par la faim et la fatigue; beaucoup sont morts ces derniers jours sur la route et dans les bivacs. Cet etat de choses va toujours en augmentant et donne lieu de craindre que si l"on n"y prete un prompt remede, on ne soit plus maitre des troupes dans un combat. Le 9 November, a 30 verstes de Smolensk».
[Долгом поставляю донести вашему величеству о состоянии корпусов, осмотренных мною на марше в последние три дня. Они почти в совершенном разброде. Только четвертая часть солдат остается при знаменах, прочие идут сами по себе разными направлениями, стараясь сыскать пропитание и избавиться от службы. Все думают только о Смоленске, где надеются отдохнуть. В последние дни много солдат побросали патроны и ружья. Какие бы ни были ваши дальнейшие намерения, но польза службы вашего величества требует собрать корпуса в Смоленске и отделить от них спешенных кавалеристов, безоружных, лишние обозы и часть артиллерии, ибо она теперь не в соразмерности с числом войск. Необходимо продовольствие и несколько дней покоя; солдаты изнурены голодом и усталостью; в последние дни многие умерли на дороге и на биваках. Такое бедственное положение беспрестанно усиливается и заставляет опасаться, что, если не будут приняты быстрые меры для предотвращения зла, мы скоро не будем иметь войска в своей власти в случае сражения. 9 ноября, в 30 верстах от Смоленка.]
Ввалившись в Смоленск, представлявшийся им обетованной землей, французы убивали друг друга за провиант, ограбили свои же магазины и, когда все было разграблено, побежали дальше.

Сегодня синтезаторы речи, применяемые в стационарных компьютерных системах или мобильных устройствах, чем-то необычным уже не кажутся. Технологии шагнули далеко вперед и позволили воспроизвести человеческий голос. Как все это работает, где применяется, каков лучший речевой синтезатор и с какими потенциальными проблемами может столкнуться пользователь, смотрите ниже.

Что представляют собой речевые синтезаторы и где они применяются?

Синтезаторы речи представляют собой специальные программы, состоящие из нескольких модулей, которые позволяют переводить набранный на клавиатуре текст в обычную человеческую речь в виде звукового сопровождения.

Было бы наивно полагать, что сопутствующие библиотеки содержат абсолютно все слова или возможные фразы, записанные в студиях реальными людьми. Это просто физически невозможно. К тому же библиотеки фраз имели бы такой размер, что установить их даже на современные винчестеры большого объема, не говоря уже о мобильных девайсах, просто не представлялось бы возможным.

Для этого была разработана технология, получившая название Text-to-Speech (перевод текста в речь).

Наиболее широкое распространение синтезаторы речи получили в нескольких областях, к которым можно отнести самостоятельное изучение иностранных языков (программы нередко имеют поддержку в 50 языков и более), кода нужно услышать правильное произношение слова, прослушивание текстов книг вместо чтения, создание речевых и вокальных партий в музыке, использование их людьми с ограниченными возможностями, выдача поисковых запросов в виде озвученных слов и фраз и т. д.

Разновидности программ

В зависимости от области применения, все программы можно разделить на два основных типа: стандартные, непосредственно преобразующие текст в речь, и речевые или вокальные модули, применяемые в музыкальных приложениях.

Для более полного понимания картины рассмотрим оба класса, но больший упор будет сделан все-таки на синтезаторы речи в их непосредственном назначении.

Плюсы и минусы простейших речевых приложений

Что же касается преимуществ и недостатков программ такого типа, сначала рассмотрим все-таки недостатки.

Прежде всего нужно четко понимать, что компьютер - он и есть компьютер, который на данном этапе развития человеческую речь может синтезировать весьма приблизительно. В простейших программах зачастую наблюдаются проблемы с постановкой ударений в словах, пониженное качество звука, а в мобильных устройствах - повышенное энергопотребление, а иногда и несанкционированная загрузка речевых модулей.

Но и преимуществ хватает, ведь очень многие звуковую информацию воспринимают гораздо лучше, нежели визуальную. Удобство восприятия налицо.

Как пользоваться синтезатором речи?

Теперь несколько слов об основных принципах использования программ такого типа. Установить синтезатор речи любого типа можно без особых проблем. В стационарных системах используется стандартный инсталлятор, где основной задачей станет выбор поддерживаемых языковых модулей. Для мобильных девайсов установочный файл можно скачать из официального магазина или хранилища вроде Google Play или AppStore, после чего приложение инсталлируется в автоматическом режиме.

Как правило, при первом запуске никаких настроек, кроме установки языка по умолчанию, производить не нужно. Правда, иногда программа может предложить выбрать качество звучания (в стандартном варианте, применяемом повсеместно, частота дискретизации 4410 Гц, глубина 16 бит и битрейт 128 кбит/с). В мобильных устройствах эти показатели ниже. Тем не менее за основу берется определенный голос. С использованием стандартного шаблона произношения путем применения фильтров и эквалайзеров достигается звучание именно такого тембра.

В использовании можно выбрать несколько вариантов перевода вручную, озвучивание уже имеющего текста из файла, интеграция в другие приложения (например, веб-браузеры) с активацией выдачи поисковых результатов или прочтения текстового содержимого на страницах онлайн. Достаточно выбрать нужный вариант действий, язык и голос, которым все это будет произноситься. Многие программы имеют несколько разновидностей голосов: как мужских, так и женских. Для активации процесса воспроизведения обычно используется кнопка старта.

Если говорить о том, как отключить синтезатор речи, тут может быть несколько вариантов. В самом простом случае используется кнопка остановки воспроизведения в самой программе. В случае интеграции в браузер деактивация производится в настройках расширений или полным удалением плагина. А вот с мобильными устройствами, несмотря на непосредственное отключение, могут быть проблемы, о которых будет сказано отдельно.

В музыкальных программах настройки и ввод текста намного сложнее. Например, в приложении FL Studio есть свой речевой модуль, в котором можно выбрать несколько изменить настройки тональности, скорости воспроизведения и т. д. Для постановки ударений перед слогом используется символ «_». Но и такой синтезатор годится только для создания роботизированных голосов.

Но вот пакет Vocaloid от Yamaha относится к программам профессионального типа. Технология Text-to-Speech здесь реализована в наиболее полном объеме. В настройках, помимо стандартных параметров, можно выставить артикуляцию, глиссандо, использовать библиотеки с вокалом профессиональных исполнителей, составлять слова и фразы, подгоняя их под ноты, и еще кучу всего. Неудивительно, что пакет только с одним вокалом занимает порядка 4 Гб и более в установочном дистрибутиве, а после распаковки - вдвое-втрое больше.

Синтезаторы речи с русскими голосами: краткий обзор самых популярных

Но вернемся к самым простым приложениям и рассмотрим самые популярные из них.

RHVoice - по мнению большинства экспертов, лучший синтезатор речи, являющийся российской разработкой авторства В стандартном варианте доступно три голоса (Александр, Ирина, Елена). Настройки просты. А само приложение может использоваться и как самостоятельная программа, совместимая с SAPI5, и как экранный модуль.

Acapela - достаточно интересное приложение, главной особенностью которого является почти идеальная озвучка текста более чем на 30 языках мира. В обычной версии, правда, доступен только один голос (Алена).

Vocalizer - мощное приложение с женским голосом Milena. Очень часто эта программа применяется в call-центрах. Имеется множество настроек постановки ударения, громкости, скорости чтения и установки дополнительных словарей. Главное отличие состоит в том, что речевой движок может встраиваться в программы вроде Cool Reader, Moon+ Reader Pro или Full Screen Caller ID.

Festival - мощнейшая утилита синтеза и распознавания речи, созданная для систем Linux и Mac OS X. Приложение поставляется с открытым исходным кодом и, помимо стандартных языковых пакетов, имеет поддержку даже финского языка и хинди.

eSpeak - речевое приложение, поддерживающее более 50 языков. Главным недостатком считается сохранение файлов с синтезированной речью исключительно в формате WAV, который занимает уж очень много места. Зато программа является кроссплатформенной и может использоваться даже в мобильных системах.

Проблемы с синтезатором речи в Google Android

При установке «родного» синтезатора речи от Google, пользователи постоянно жалуются на то, что он самопроизвольно включает загрузку дополнительных языковых модулей, что может не только занимать достаточно длительный промежуток времени, но еще и расходует трафик.

Избавиться от этого в Android-системах можно очень просто. Для этого используем меню настроек, далее переходим в раздел языка и голосового ввода, выбираем голосовой поиск и на параметре распознавания речи оффлайн нажимаем на крестик (отключение). Дополнительно рекомендуется почистить кэш приложений и перезагрузить устройство. Иногда может потребоваться в самом приложении отключить показ уведомлений.

Что в итоге?

Поводя некий итог, можно сказать, что в большинстве случаев рядовым пользователям подойдут самые простые программы. Во всех рейтингах лидирует RHVoice. Но для музыкантов, которые хотят добиться естественного звучания голоса, чтобы разница между живым вокалом и компьютерным синтезом не ощущалась на слух, лучше отдать предпочтение программам типа Vocaloid, тем более что для них выпускается множество дополнительных голосовых библиотек, а настройки имеют столько возможностей, что примитивные приложения, как говорится, и рядом не стояли.

Речевые синтезаторы, установленные на компьютеры или мобильные устройства, уже не кажутся такими необычными программами, как раньше. Благодаря современным технологиям обычный настольный ПК может воспроизводить человеческий голос.

Каким образом работают синтезаторы речи? Где они применяются? Какой самый лучший речевой синтезатор? Ответы на эти и другие вопросы изложены в данной статье.

Общее понятие

Синтезаторы речи являются специальными программами, состоящими из некоторого количества модулей, которые предоставляют возможность перевести набранные тексты в озвученные человеческим голосом предложения. Не стоит думать, что вся база слов и фраз записана реальными людьми в профессиональных студиях. Выполнить подобную задачу физически невозможно. Библиотеку с таким большим количеством фраз нельзя установить ни на один современный компьютер, не говоря уже о мобильных телефонах. Для этого разработчики создали технологию Text-to-Speech.

Сфера применения

Синтезаторы речи используются при изучении иностранных языков, прослушивании текстов на страницах книг, создании вокальных партий, выдаче поисковых запросов в форме озвученных фраз и т. п.

Какие разновидности программ существуют? В зависимости от сферы применения утилиты можно разделить на 2 вида: обычные, преобразующие набранный текст в речь, и специальные вокальные модули, используемые в музыкальных приложениях.

Преимущества и недостатки

На данный момент компьютер синтезирует человеческую речь только приблизительно. В простейших программах можно наблюдать проблемы со звуком и правильной постановкой ударений в различных словах. Синтезаторы речи, установленные на мобильные устройства, расходуют много энергии. Нередко можно отметить несанкционированную загрузку дополнительных модулей.

К преимуществам следует отнести удобство восприятия. Многим пользователям гораздо проще усваивать звуковую информацию, нежели какую-либо другую.

Лучшие речевые синтезаторы с русскими голосами

Программа RHVoice была создана Ольгой Яковлевой. Стандартный вариант приложения включает 3 голоса. Настройки очень просты. Программу можно использовать и как самостоятельное приложение, совместимое с SAPI5, и как дополнительный экранный модуль.

Речевой синтезатор Acapela отличается от аналогов идеальным озвучиванием текста. Приложение поддерживает более 30 языков мира. В бесплатной версии доступен лишь 1 женский голос.

Программа Vocalizer часто применяется в call-центрах. Пользователь может настроить постановку ударения, громкость и скорость чтения. При необходимости загружаются дополнительные словари. В приложении есть 1 женский голос. Речевой движок автоматически встраивается в программы для чтения книг в электронном формате.

Утилита eSpeak поддерживает свыше 50 языков. Недостатком программы можно считать сохранение звуковых файлов лишь в формате WAV, который требует много места на жестком диске.

Приложение Festival является мощнейшей утилитой синтеза речи, поддерживающей даже финский язык и хинди.

Установка программы

Как использовать приложения такого типа? Для начала нужно установить программу. В компьютерных ОС применяется стандартный инсталлятор, в котором пользователю остается выбрать лишь поддерживаемый утилитой языковой модуль. Установщик для мобильных устройств можно скачать с официального сайта, Google Play, а также App Store. Инсталляция приложения происходит в автоматическом режиме.

Первый запуск программы

На данном этапе пользователю достаточно установить язык по умолчанию. Иногда требуется отметить качество звучания. Стандартный вариант подразумевает частоту дискретизации 4410 Гц, глубину 16 бит и битрейт 128 кбит/с. В мобильных ОС показатели могут быть ниже. В качестве основы используется определенный голос.

Фильтры и эквалайзеры помогают достичь необходимого звучания. Пользователю доступны три варианта перевода текста. Он может набрать на клавиатуре предложения, включить озвучивание уже имеющегося файла или установить в браузере расширение, которое преобразует содержимое на веб-страницах в речь. Достаточно отметить необходимый вариант действий, тембр голоса и язык, на котором будет произноситься текст. Для включения процесса воспроизведения требуется кликнуть по кнопке «Старт».

Работа со сложными программами

В музыкальных приложениях настройки гораздо сложнее. В речевом модуле программы FL Studio пользователь может выбрать несколько видов голосов, а также указать тональность и скорость воспроизведения. Постановка ударений перед слогами осуществляется с помощью символа «_». С помощью подобного речевого синтезатора можно создать лишь роботизированный голос.

Программа Vocaloid относится к приложениям профессионального типа. Помимо обычных параметров, пользователь может выбирать артикуляцию и глиссандо. В утилите есть база с вокалом профессионалов. При желании можно подгонять под ноты целые предложения. Одна только библиотека с вокалом занимает более 4 Гб в сжатом виде.

"Синтезатор речи Google": что это за программа

В мае 2014 года компания предоставила пользователям возможность опробовать новый бесплатный продукт. Что такое "Синтезатор речи Google" на «Андроиде»? Это программа, озвучивающая текст на экране мобильного устройства или планшета. Теперь нет необходимости устанавливать сторонние утилиты, которые требуют наличия лицензии. "Синтезатор речи Google" используется при чтении электронных книг, прослушивании правильного произношения слов, запуске приложения TalkBack.

Новая версия программы "Синтезатор речи Google 3.1" получила функцию поддержки английского, итальянского, испанского, корейского, немецкого, нидерландского, польского, португальского, русского и французского языков. Где найти голосовые пакеты? Они загружаются из самого приложения.

Преимущества и недостатки продукта от Google

Особенностями русскоговорящего женского голоса является четкое, громкое звучание и плавная интонация. Скорость воспроизведения можно регулировать в настройках программы. Пользователи, использующие TalkBack и русскую языковую локализацию ОС Android, должны проявлять осторожность при переключении на речевой синтезатор, если ранее в приложении по умолчанию был установлен другой голос. Могут возникнуть проблемы, связанные с сохранением контроля над мобильным устройством на слух. Практически все голоса, кроме русского, неспособны обрабатывать предложения на кириллице.

Среди минусов можно отметить задержку реакции на чтение текстов, состоящих из фраз на разных языках. Русский голос отличается металлическими нотками тембра. Можно услышать дребезжащий звук на низких частотах. К преимуществам можно отнести стабильность работы приложения и приемлемое качество чтения англоязычных слов.

"Синтезатор речи Google": как пользоваться программой

Для того чтобы утилита заработала как надо, требуется обновить ее до последней версии. Чтобы активировать процесс озвучивания текста, нужно открыть настройки. В разделе «язык и ввод» необходимо поставить флажок на пункте «синтез речи». Тут же следует отметить строку «система по умолчанию». Не стоит забывать о том, что голосовые пакеты в самой программе также нуждаются в обновлении.

Проблемы при работе с утилитой

При необходимости пользователь может отключить приложение. В самых простых утилитах кнопка остановки находится в самой программе. Деактивация расширения, установленного в браузере, производится путем отключения дополнения или полного удаления плагина. При работе с программой на мобильном телефоне также могут возникнуть проблемы. Дело в том, что синтезатор речи автоматически включает загрузку ненужных пользователю языковых модулей.

Данный процесс занимает много времени и существенно расходует трафик. Как отключить "Синтезатор речи Google" на мобильном устройстве и избавиться от этой проблемы? Для начала нужно открыть настройки приложения. Потом необходимо выбрать раздел «язык и голосовой ввод». Далее нужно отметить последнюю строку.

Выбрав голосовой поиск, следует кликнуть по крестику у пункта «распознавание речи офлайн». Затем рекомендуется удалить кэш приложений. Далее требуется перезагрузить мобильный телефон. Чтобы полностью отключить утилиту, необходимо открыть в настройках раздел «приложения», выбрать в списке синтезатор речи и кликнуть по кнопке «остановить».

Удаление программы

Бывает так, что пользователь вообще не использует "Синтезатор речи Google". Можно ли удалить утилиту с мобильного устройства? Для этого нужно открыть Google Play. Затем следует выбрать в перечне установленных программ синтезатор речи и кликнуть по кнопке «удалить».

Итоги

Обычным пользователям и людям с ограниченными возможностями подойдут приложения с простым интерфейсом. Это может быть как RHVoice, так и "Синтезатор речи Google". Русский голос озвучит отображаемый на экране текст. Большего рядовому пользователю не требуется.

Музыкантам рекомендуется отдавать предпочтение профессиональной программе Vocaloid. В приложении есть дополнительные голосовые библиотеки и множество различных опций. Программа позволит получить естественное звучание голоса. Ведь музыкантам так важно, чтобы компьютерный синтез не ощущался на слух.

Поделитесь с друзьями или сохраните для себя:

Загрузка...