Comments / Profile of snakers4 / Habr

How to become an author

Alexander Veysov @snakers4

Machine Learning / Data Science

Profile Publications 66Comments 1.2KBookmarks 14

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 17:50

Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

В данной статье идёт речь про датасет для детекции языка.

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.

+2

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 15:10

Одно время в одной только Индии было более 1000 языков.

-1

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 09:32

Поправил ссылку

0

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 08:26

Они могут быть использованы в первую очередь для детекции речи.

+1

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 08:25

В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.

0

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

snakers4 Apr 11 at 07:42

Примерно вот такие

+2

GigaAM: класс открытых моделей для обработки звучащей речи

snakers4 Apr 8 at 11:25

В том числе датасеты OpenSTT, которые не участвовали в обучении.

Тут ведь используются как-то дополнительно почищенные валидационные датасеты? Можете на них тоже приложить ссылку?

0

От хаоса к порядку. Как мы внедряем стандарты в CDEK

snakers4 Mar 23 at 08:03

Ответ очевиден - так можно собрать больше информации. И плевать им на вашу безопасность.

-1

От хаоса к порядку. Как мы внедряем стандарты в CDEK

snakers4 Mar 23 at 08:00

В сумме с выдачей по паспорту и навязыванием СДЭК id выглядит как двойное издевательство и лицемерие.

И не надо рассказывать про защиту пользователей - давно существуют одноразовые ключи, 2FA, криптография - и всё без дополнительного сбора персональной информации (которая утекает террористам) и навязывания ненужных экосистем.

Так что анти человеческие практики применяются вашей компанией целенаправленно. Зачем клиентам при получении какой-то фигни увеличивать базу, которая будет передана террористам - непонятно.

Вывод напрашивается очевидный - не пользоваться услугами и максимально бойкотировать использование вашей компании.

Хорошо, что закон про оборотные штрафы приняли, но мне лично кажется, что в случае таких массовых сливов или какое-то звено руководства работает с террористами, или административной ответственности категорически недостаточно.

-3

От хаоса к порядку. Как мы внедряем стандарты в CDEK

snakers4 Mar 22 at 16:05

Честно говоря, с учетом специфики работы компании СДЭК с данными клиентов, эта статья кажется форменным издевательством.

-2

Мы опубликовали современный Voice Activity Detector и не только

snakers4 Mar 13 at 18:12

Там в репозитории есть примеры

Но вообще нормализовать к -1 ... 1

+1

В поисках самой мощной видеокарты! Тестируем А100 и А6000 Ada на большой языковой модели

snakers4 Mar 13 at 15:39

Мы видим, что по характеристикам А6000 Ada выглядит перспективнее, чем А100. Но она дороже

А6000 Ada в районе 800 тыс.руб, А100 в районе 1800 тыс.руб.

Не совсем понял в итоге, кто кого дороже по мнению автора статьи?

0

В поисках самой мощной видеокарты! Тестируем А100 и А6000 Ada на большой языковой модели

snakers4 Mar 13 at 15:39

Памяти мало и нвлинк нет

А он реально нужен?

0

В поисках самой мощной видеокарты! Тестируем А100 и А6000 Ada на большой языковой модели

snakers4 Mar 13 at 15:38

нет гарантии на бу

0

В поисках самой мощной видеокарты! Тестируем А100 и А6000 Ada на большой языковой модели

snakers4 Mar 13 at 15:38

Почему нельзя просто взять самые мощные GPU

Потому, что с ростом класса видеокарты её цена всё больше отрывается от линейного масштабирования по сравнению с игровыми картами. И в топовом сегмента наценка уже кратная.

За что мы любим А100 и А6000 Ada

А всякие H100 и L40 и похожее не получилось достать? Интересно почитать было бы.

Однако недавно мы получили доступ к новой видеокарте — А6000 Ada

Понятно, что для задач тренировки гигантских сеток A5000 Ada не подойдет, но для инференса карточка точно интересная. У вас в прошлой статье про карты A5000 была лидером в общем забеге в пересчете попугаев на доллары, насколько я помню.

Мы видим, что по характеристикам А6000 Ada выглядит перспективнее, чем А100. Но она дороже

Тут борются несколько вещей:

Наценка на карты Tesla обычно выше, чем на просто профессиональные;
Прошлое поколение не думает дешеветь;
С ростом пузыря "наценка" относительно игровых карт растёт, и растет число методов, которыми Nvidia "закручивает гайки";

Вообще кажется в идеальном мире, что с выходом Ada карты прошлого поколения должны быть подешеветь в разы. Но на практике цены на A100 совсем какие-то рандомные и кажется только выросли.

они нужны для сборки DKMS, в виде которого поставляется драйвер out-off-tree; этот драйвер в свою очередь нужен для работы GPU Nvidia

А можете подробнее тут расписать, как правильно драйвера выбирать? Поиск по пакетам в актуальной версии выдает вот это, я раньше ставил и не парился, а сейчас вот сколько версий:

0

Ограничения в телеграм-бот (Bot API), о которых никто не расскажет

snakers4 Mar 13 at 13:47

У Телеграма лимиты маловаты для больших комьюнити, но по сути это их способ борьбы со спамом и способ не потерять контроль.

Возможно задел на будущее (платные бизнес-фичи), но именно в Телеграме, если не считать скамных ботов с варезом и "подпишись на 10 ботов и каналов", почти не стоит проблемы входящего спама в личку, или всё режется настройками и отписками.

0

Всё /var/lib/docker пожрал … docker

snakers4 Feb 4 at 10:07

Любые совпадения в статье с реальностью случайны, лучше прочитать документацию и прогуглить форумы, но подходы полезные

0

Всё /var/lib/docker пожрал … docker

snakers4 Feb 3 at 12:29

Не уверен кстати, что так можно делать без последствий.
Всё-таки лучше понять, что именно жрёт, и точечно удалять и самое главное, не допускать впредь, или высказать коллеге а-та-та.

0

Всё /var/lib/docker пожрал … docker

snakers4 Feb 1 at 12:01

Для продовых сервисов маст

0

Играемся с RTX 5000 Ada (AD103): первые впечатления

snakers4 Jan 29 at 09:15

И да, испытываю некий диссонанс от сравнения цены и попугаев на A100 против A5000 ADA.

+1

1

2 3 ...