Как стать автором
Обновить

Как слепой разработчик в одиночку создала синтезатор речи

Время на прочтение 11 мин
Количество просмотров 17K
Всего голосов 71: ↑70 и ↓1 +69
Комментарии 42

Комментарии 42

Как-то раз температурящий ребёнок попросил почитать на ночь. Сил не было, т.к. самого шатало. Поставил Балаболку и RhVoice — справились на отлично, семья спокойно уснула.

Спасибо за статью и спасибо Ольге за отличный продукт и за принципиальную его бесплатность. Движок и словари очень лёгкие, в отличие от многих брендовых, голос Ирины по сравнению с голосом Николая — как велосипед по сравнению с ходулями.
Кажется это самый душевный отзыв на софт, который я читала.
Пишите ещё, отзовёмся!

Спасибо! Синтезатор с весьма разборчивой речью.

Пользуюсь этим синтезатором много лет, но не знал, что он создан в таких обстоятельствах. Синтезатор действительно отличный. Если я и до этого восхищался трудом Ольги, то теперь даже не знаю, что и сказать.

Кстати, код у синтезатора написан вполне хорошо. Я немного заглядывал внутрь и мне понравилось, как там всё работает. Давно хочу попробовать там что-нибудь улучшить, но пока работа не даёт заняться этим достаточно плотно.
Снимаю шляпу. «Расскажите ей о ваших проблемах с копи-пастом со stackoverflow....»
благодаря одному увлеченному человеку много лет делается очень хорошее дело. Больше вам спасибо, Ольга.
поддерживаю
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

пилотка

Пилотесса скорее
менеджерка или менеджересса?
менеджАра :-)
Ну или менеджерша. Ну это еще ладно, новые слова и к ним нетрудно написать женское, а вот скажем к «капитан», «генерал» сложно, потому что есть жена капитана и генерала и как из этого выкрутиться я плохо понимаю
НЛО прилетело и опубликовало эту надпись здесь
Вы прямо современный украинский язык цитируете!

Интересно, а если автор статьи просто писал про интересного человека, его судьбу и его проект, даже не задумываясь какого он пола?

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
В авиации речевой информатор отродясь говорит приятным женским голосом. Тут, видимо, как в романе «Война и мир» — "чем меньше войны, тем больше Наташи", за счёт особенностей психологического восприятия выстраивается второй выделенный буфер для обработки важных сообщений, вместо постановки в уже имеющийся FIFO, где до их обработки может не успеть дойти очередь.

Кстати, заглянул, что думает о FIFO Гугл — «FIFO — способ организации и манипулирования данными», всё верно, но перед выдачей — реклама в рамке — «FIFO – правило ротации товара». Опять всё верно, у знаний нет денег на собственное продвижение, в отличие от.

В авиации так сделано, чтобы речь информатора резко выделялась на фоне речи лётчиков. На железке тоже. И речь там не синтезируют, а записывают готовые фразы. Раньше на магнитный барабан, теперь в ПЗУ.

НЛО прилетело и опубликовало эту надпись здесь
EGPWS всегда вещает мужским голосом, я вообще не помню слышал ли когда-нибудь женский. А вот, например RAAS, чаще всего говорит женским голосом.
Молодец.
Моя племянница слепая с рождения, уже 20 лет, не говорит, т.к. развитие мозга идёт в основном через зрение. Когда ещё можно было «оживить» глаза, спаленные передозировкой кислородом у новорождённой, ни у кого не было денег, так, на пару пару поездок в москву хватило, а надо было с десяток…
Тифлопедагог, потерявшая зрение полностью из-за травмы, прозанималась с ней около года — дальше её не устроило, сложный ребёнок, мало денег от минздрава, а брат доплачивать не мог. К тому же она была из соседнего городка — кататься за 70 км ей не интересно было.
Вопрос. Поможет ли данный переводчик, если мать с ней будет заниматься, по крайней мере по два часа за компом. Просто водить её рукой по тексту, что бы заработала хоть какая-нибудь обратная связь. Её мама постоянно разговаривает с ней, каждый свой жест комментирует, оставляет ей аудиокнижки на прослушку…
Что ещё можно сделать?
Основное в данном вопросе — мозг не развит, зрение медсестра сожгла ещё в роддоме, обнаружили не сразу, когда поняли долго искали где можно сетчатку поправить, когда нашли — небыло денег, сейчас, вроде всё есть — время упущено…
А в каком состоянии племянница сейчас? Т.е. какая есть обратная связь? Мне рассказывали, (правда про слепоглухонемых), что они очень долго (годы) учатся азам, а потом осваивают новые знания очень быстро (годам к 16-17). Также есть информация, что мозговые структуры в основном формируются до 13 лет.
19й год по возрасту. По квартире ходит самостоятельно. По городу только в сопровождении, в машине (возил недавно на обследование) ведёт по началу адекватно, где-то через час её навинает укачивать и она начинает психовать. Не разговаривает, в основном требовательный или недовольный крик. Еду за столом в тарелке ищет самостоятельно, ещё и выбирает на ощупь повкуснее, но ложкой/вилкой пользоваться не умеет. На голос матери реагирует более менее адекватно.

В том-то и дело, что опасаюсь, что время уже упущено. Надо будет с ними поговорить на тему «диктора» в качестве «обучалки»…
Мне кажется Вам могут оказаться полезными работы Эвальда Ильенкова:
например, вот обзорная статья по работе со слепоглухими детьми.
Он, кстати, был участником Загорского эксперимента.
Спасибо
Тут надо не с хабром консультироваться а с медицинскими специалистами в этой области, тем более если сейчас есть финансовые ресурсы.
Все спецы в один голос говорят — опоздали. Никто не берётся, ни в Уфе, ни в Москве. А когда надо было — этоого несчастного тифлопедагога через округ выбивали — еле получили, и то через год она отказалась работать.
Ищите варианты. Сейчас много нового появляется… Удачи вам и терпения!
Ищем — уже лет пять назад никто не брался, хоть и деньги уже более-менее были…
Синтезатор хороший, большое спасибо Ольге за работу. Очень нравится его скорость работы. Хорошо заметно на андроиде в сравнении с синтезатором google, который сильно притормаживает. Ну относительно RHVoice.
Однако согласен с проблемами качества звука, которые некоторые высказывают. Это выражается, как мне кажется, в фоновом шуме и нечетком произношении отдельных частей или букв. Если при произношении фразы или слова целиком все довольно понятно и никаких трудностей не вызывает, то вот, например, при наборе текста на клавиатуре некоторые буквы произносятся нечетко, плюс фоновый шум, и многие буквы не понятно что набираешь. У синтезатора google с этим гораздо лучше, никакого фонового шума, каждая буква произносится четко и ясно.
Очень жаль что нельзя улучшить качество. И конечно нельзя сравнивать возможности мировой корпорации и одной разработчицы. Так что уважение и восхищение ее работе.
это акцент на описании различных объектов и вариантах управления ими. Так как незрячему человеку инструкция вида «щелкните мышкой на ниспадающий список и выберите нужный пункт меню» несколько бесполезна. Они не видят ни экран, ни курсор мышки и даже больше — не знает, как выглядит

Эти утверждения были актуальны как раз во времена windows95, когда даже большинство зрячих были неграмотны даже в таких вещах, как простой пользовательский интерфейс. Сейчас же слепой может всегда спросить как выглядит тот или иной элемент. И в скринридерах теперь есть функция отслеживания мыши. Это когда ты ведёшь мышиный курсор, а скринридер тебе озвучивает элемент под курсором. С помощью этой функции можно всегда понимать, как зрячие видят расположение элементов на экране. И даже цвет элемента можно узнать. По этому я за обучение слепых пространственному мышлению!
Более того. Не все незрячие такими рождаются. Многие теряют зрение по различным причинам. Они вполне знакомы с интерфейсом, как он выглядит и что все это означает, и нет проблем с пространственным мышлением. Рожденных незрячими да, надо обучать. Согласен.
Не считал себя программистом, как собственно и не учился на него, а после этой статьи совсем перестал.
И что-то, охватила меня такая тоска и грусть, да печаль от беЗцельно прожитых лет, которых не мало. Считал, что, что-то сделал, а сколько не сделал и сколько можно будет сделать, но понял что ни в прошлом, ни в настоящем и будущем со сложившимися стереотипами и таким подходом к жизни, считать свои копошения и топтания деятельностью???
Не ценю каждый миг и имеющиеся возможности и только возможно у лишённого или ограниченного в чем то и есть выбор из двух: либо сдохнуть, либо сражаться и второе выбирают далеко не все.
Мой код г@вно, а оптимизированные однобайтные хаки софта беЗполезны, потому что не создал ничего полезного для людей имея все пять чувств и даже более. Кивать на остальных беЗсмысленно т.к. начинать надо всегда с себя и с того, что у тебя есть и использовать это превосходя самого себя, двигая свою точку сборки от релиза к релизу.
Низкий поклон и выражаю уважение Ольге Яковлевой за урок мужества. Ограниченная по зрению — Программист с большой буквы, а для всех остальных, в т.ч. для меня эта способность скорее недуг или неудобство, раз имея зрение пишем такой код, не ценим красоту.

Вопрос к комьюнити — а насколько важно качество голоса для подобного рода интерфейсов?


Я вот допустим с радостью смотрю ролики OgoMK, озвученные через Digalo с голосом Nikolay. Качество речи там не очень, но я привык и нормально, даже есть свой шарм (там немного своя атмосфера).


Вопрос как воспринимаются "говорилки", если их слушаешь постоянно?


Мне просто пришла идея написать текущим мейнтейнерам RhVoice и предложить им запилить наш открытый TTS туда (https://habr.com/ru/post/549480/)

Качество голоса важно, поэтому, например, голос стандартной microsoft Ирины из виндовс слушается приятнее, чем голоса rhvoice, хотя и он не без огрехов конечно. Ваши голоса понравились. Не знаю зачем их интегрировать в rhvoice, когда у вас готовый свой синтез. Надо делать из них сборку плагина для NVDA программы экранного доступа.

Не знаю, тут скорее мы пока просто тыкнули в небо, я не особо понимаю как работает эта экосистема.


Пока я услышал, что людям очень важен latency — а у нас максимум 5 RTC на 2 ядрах, чего недостаточно для мгновенного чтения.

Да latency конечно важен, надо будет как-то попробовать запустить ваш tts, чтобы понять его скорость в реалтайме, а не на записи. Но в любом случае включать ваши голоса в rhvoice не очень, там своя структура на C++ и довольно переусложненная, на вашу python архитектуру думаю можно было бы построить удобную управляющую часть.

Если честно, я не особо имею представление о том, как там всем этим управлять из-под винды или апишек чтения в операционных системах, так что рассчитываю, что люди с опытом покрутят и что-то подскажут.


Но открытый релиз на то и открытый, чтобы народ в благих целях куда-то это прикрутил.

Несомненно, спасибо вам за действительно грандиозную работу.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий