Pull to refresh
306
-9
Alexander Veysov @snakers4

Machine Learning / Data Science

Send message

Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

В данной статье идёт речь про датасет для детекции языка.

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.

Одно время в одной только Индии было более 1000 языков.

Они могут быть использованы в первую очередь для детекции речи.

В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.

В том числе датасеты OpenSTT, которые не участвовали в обучении.

Тут ведь используются как-то дополнительно почищенные валидационные датасеты? Можете на них тоже приложить ссылку?

Ответ очевиден - так можно собрать больше информации. И плевать им на вашу безопасность.

В сумме с выдачей по паспорту и навязыванием СДЭК id выглядит как двойное издевательство и лицемерие.

И не надо рассказывать про защиту пользователей - давно существуют одноразовые ключи, 2FA, криптография - и всё без дополнительного сбора персональной информации (которая утекает террористам) и навязывания ненужных экосистем.

Так что анти человеческие практики применяются вашей компанией целенаправленно. Зачем клиентам при получении какой-то фигни увеличивать базу, которая будет передана террористам - непонятно.

Вывод напрашивается очевидный - не пользоваться услугами и максимально бойкотировать использование вашей компании.

Хорошо, что закон про оборотные штрафы приняли, но мне лично кажется, что в случае таких массовых сливов или какое-то звено руководства работает с террористами, или административной ответственности категорически недостаточно.

Честно говоря, с учетом специфики работы компании СДЭК с данными клиентов, эта статья кажется форменным издевательством.

Там в репозитории есть примеры

Но вообще нормализовать к -1 ... 1

Мы видим, что по характеристикам А6000 Ada выглядит перспективнее, чем А100. Но она дороже

А6000 Ada в районе 800 тыс.руб, А100 в районе 1800 тыс.руб.

Не совсем понял в итоге, кто кого дороже по мнению автора статьи?

Памяти мало и нвлинк нет

А он реально нужен?

Почему нельзя просто взять самые мощные GPU

Потому, что с ростом класса видеокарты её цена всё больше отрывается от линейного масштабирования по сравнению с игровыми картами. И в топовом сегмента наценка уже кратная.

За что мы любим А100 и А6000 Ada

А всякие H100 и L40 и похожее не получилось достать? Интересно почитать было бы.

Однако недавно мы получили доступ к новой видеокарте — А6000 Ada

Понятно, что для задач тренировки гигантских сеток A5000 Ada не подойдет, но для инференса карточка точно интересная. У вас в прошлой статье про карты A5000 была лидером в общем забеге в пересчете попугаев на доллары, насколько я помню.

Мы видим, что по характеристикам А6000 Ada выглядит перспективнее, чем А100. Но она дороже

Тут борются несколько вещей:

  • Наценка на карты Tesla обычно выше, чем на просто профессиональные;

  • Прошлое поколение не думает дешеветь;

  • С ростом пузыря "наценка" относительно игровых карт растёт, и растет число методов, которыми Nvidia "закручивает гайки";

Вообще кажется в идеальном мире, что с выходом Ada карты прошлого поколения должны быть подешеветь в разы. Но на практике цены на A100 совсем какие-то рандомные и кажется только выросли.

они нужны для сборки DKMS, в виде которого поставляется драйвер out-off-tree; этот драйвер в свою очередь нужен для работы GPU Nvidia

А можете подробнее тут расписать, как правильно драйвера выбирать? Поиск по пакетам в актуальной версии выдает вот это, я раньше ставил и не парился, а сейчас вот сколько версий:

У Телеграма лимиты маловаты для больших комьюнити, но по сути это их способ борьбы со спамом и способ не потерять контроль.

Возможно задел на будущее (платные бизнес-фичи), но именно в Телеграме, если не считать скамных ботов с варезом и "подпишись на 10 ботов и каналов", почти не стоит проблемы входящего спама в личку, или всё режется настройками и отписками.

Любые совпадения в статье с реальностью случайны, лучше прочитать документацию и прогуглить форумы, но подходы полезные

Не уверен кстати, что так можно делать без последствий.
Всё-таки лучше понять, что именно жрёт, и точечно удалять и самое главное, не допускать впредь, или высказать коллеге а-та-та.

Для продовых сервисов маст

И да, испытываю некий диссонанс от сравнения цены и попугаев на A100 против A5000 ADA.

1
23 ...

Information

Rating
Does not participate
Registered
Activity