Как стать автором
Обновить

Комментарии 8

Оффтоп. Кто-то знает, почему гугл-переводчик иногда «переводит»: 1984 -> тысяча девятьсот восемьдесят четвёртый год?
Потому что там теперь нейросети и порой вместо перевода получаются какие-то его фантазии.
Похоже на строчке «norm.norm_string(»и в 2012 году составляла 6,6 шекеля")"
сработал Fatal Exception, т.к. на ней статья обрывается :)
Возможно на этой строчке у автора наступила суббота. И таки да, статья обрезанная получилась.
Я, конечно, не знаток, но нас учили, что числа до 10 лучше записывать строкой, а все, что выше, желательно в виде цифр.
5,45% в виде строки довольно неудобно читать :)
Читать разумеется удобней, но тут предполагается текста для обучения систем распознавания речи, а там как раз предпочтительней, чтобы текст в точности соответствовал тому, что было произнесено, без сокращение и прочего
Очень интересно, спасибо!
А где Вы используете Ваши наработки более конкретно?

Используем как один из этапов предобработки текста в открытом датасете русской речи Open_STT. Про сам датасет можно подробнее почитать в статье на Хабре.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации