Как стать автором
Обновить

Комментарии 18

Датасет это хорошо, но еще лучше линки(или прямые примеры) как его использовать.
У вас есть возможность сделать такие примеры. Наличие Image Net-a — это возможность, наличие Open STT — это возможность. Без них не будет примеров и реальных применений.

Вообще мы планируем релизить пре-тренированные модели в домене STT и TTS (не решили до конца еще в каком виде), натренированные на масштабных данных. И сейчас волна демократизации в речи только начинается, поэтому первый, кто делится, по сути находится в условно проигрышном положении.


Но каждая такая задача — это сейчас такой большой комок противоречий и длинный путь по оптимизации, по сути полноценный research проект. Там столько много всего, что на эту тему будет тоже отдельная статья.


Если нужен линк, где все условно plug and play, то сейчас в отличие от того же Computer Vision в речи вроде такие линки как бы и есть, но рекомендовать их не возьмусь, т.к. везде есть такие strings attached, что я сам ими в итоге не стал пользоваться.


Из того, что ± работает — EspNet, DeepSpeech 2, Wav2Letter++.

Спасибо за такую огромную работу! Могу сказать, что DeepSpeech2 даёт достаточно хорошие прогнозы на одном только private_buriy_audiobooks_2 (~1500 часов).

Тут всегда стоит вопрос генерализации обученной модели на другие домены ...

Датасет русской речи, лейблы для спикеров… По мне, русская речь выглядит не так.
Набор данных, метки для докладчиков и т.п. Ведь так гораздо приятнее.
Знаете ли вы, что все слова, содержащие букву 'ф' — не русского происхождения? Чем замените форточку, конфорку и фильм, чтобы было гораздо приятнее?
У обозначенных Вами слов замены нет, а вот у тех, на которые указал Gar02, есть.

Ну почему нет, можно как минимум использовать малый проем окна, газовую горелку, плёнку. Вместо глаза использовать око, вместо пляжа набережную.
Спор бессмысленный, устоявшейся терминологии нет, все статьи на английском, языки развиваются, проф жаргон был всегда. Боярский звучит смешно.
Просто приведите мне нормальные русские аналоги для 'CNN', 'deep learning', 'inference’, 'reinforcement learning’, 'end-to-end training', 'confusion matrix', с которыми все согласятся

Ну для «CNN» и «deep learning» устоявшиеся аналоги всё же есть. А вот с остальными примерами всё плохо, конечно.
Не понимаю, как можно требовать тотальной «русификации» от отрасли, которая растёт у нас на глазах, здесь и сейчас, и растёт как раз таки на английском языке.
для reinforcement learning тоже есть — обучение с подкреплением, confusion matrix — матрица ошибок; для остальных указанных терминов, к сожалению, нет устоявшихся эквивалентов
Всегда интересовал вопрос: почему бы на хабре не сделать ИТ словарь для устоявшихся терминов? Может что-то вики-подобное, а может и просто пост редактируемый. Преподаю в университете и с каждым готом все больше осознаю свою ответственность перед студентами в выборе терминологии. В Израиле есть целый институт, который переводит терминологию. А у нас всё хаотично. И было бы здорово, если ИТ ресурс №1 сделал бы инструменты для словаря.

Пример:
1) Deductor Studio — отличный простой софт для знакомства с Data Mining переводил confusion matrix, как — «таблица сопряженности».
2) Яндекс переводчик: confusion matrix => «матрица неточностей»

Очень не хватает стандарта. У студентов в головах каша. Продвинутые английским пользуются, а что с остальными делать?
хабре не сделать ИТ словарь

На хабре были прекрасные споры про профсоюз айтишников.
Не вспомню в какой статье, но итог будет такой же.


что с остальными делать

Видел пару примеров, когда без учителей, выпускники технических вузов, без инвестиций в курсы и преподавателей, за 6-12 месяцев неплохо поднимали уровень английского до "читаю и смотрю все без проблем".


Чего и вашим студентам советую.


Рецепт прост — 15 минут занятий каждый день, просмотр аудио выступлений, чтение, кино, сериалы, научные статьи, минимальная грамматика. Требует минимальной базы, но куда без нее.

Чего и вашим студентам советую.
И я им это советую. Но это не решает проблему с переводом терминологии. Лекции по ИТ и так перенасыщены английскими терминами. И часто по причине существования множества альтернативных переводов.

В идеале, было бы удобно привести на лекции оригинальный термин на английском и его унифицированный перевод на русский и далее использовать русский. Причем, я не настаиваю на славянских корнях термина, а лишь подчеркиваю кривизну использования английских слов в русской речи. Их же склонять приходится :)
Это было бы очень хорошо. Мой коллега, профессор в области математики (не знаю точно, как называется его специализация), по поводу засилья западной терминологии в русском языке сказал мне примерно следующее.

Действительно новых терминов, отсутствующих в русском языке, — дай бог, половина. И при некоторых усилиях их можно перевести на русский без потери изначального смысла.
Остальная половина давно переведена на родной язык без потери смысла, и прочно вошла в язык русского научного сообщества.
Поэтому англицизмами сыпят в основном те, кто либо маловато знает предмет для самостоятельного перевода, либо пытается произвести впечатление на инвесторов.

Его речь содержит мало англицизмов, и это отнюдь не «боярский язык» XVII века, как любят юродствовать некоторые персонажи.
Спасибо. Вы очень вовремя.

Вижу людей, кто пытается скачать торрент через неработающие клиенты (мне написала пара людей, которые думали мол что дело в том, что нет сидеров). У 2 людей пофиксилось по моей инструкции.


Причина внезапно была в том, что не совсем очевидно какой размер блока ставить для такого большого торрента, я поставил большой блок, а многие торрент клиенты его не поддерживают.


Короче вам сюда — вот так должно все работать:



image

А пересчитывать торрент, когда его скачало уже пара людей, это тоже боль.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории