Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?
В данной статье идёт речь про датасет для детекции языка.
Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.
Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".
Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.
У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.
В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.
В сумме с выдачей по паспорту и навязыванием СДЭК id выглядит как двойное издевательство и лицемерие.
И не надо рассказывать про защиту пользователей - давно существуют одноразовые ключи, 2FA, криптография - и всё без дополнительного сбора персональной информации (которая утекает террористам) и навязывания ненужных экосистем.
Так что анти человеческие практики применяются вашей компанией целенаправленно. Зачем клиентам при получении какой-то фигни увеличивать базу, которая будет передана террористам - непонятно.
Вывод напрашивается очевидный - не пользоваться услугами и максимально бойкотировать использование вашей компании.
Хорошо, что закон про оборотные штрафы приняли, но мне лично кажется, что в случае таких массовых сливов или какое-то звено руководства работает с террористами, или административной ответственности категорически недостаточно.
Потому, что с ростом класса видеокарты её цена всё больше отрывается от линейного масштабирования по сравнению с игровыми картами. И в топовом сегмента наценка уже кратная.
За что мы любим А100 и А6000 Ada
А всякие H100 и L40 и похожее не получилось достать? Интересно почитать было бы.
Однако недавно мы получили доступ к новой видеокарте — А6000 Ada
Понятно, что для задач тренировки гигантских сеток A5000 Ada не подойдет, но для инференса карточка точно интересная. У вас в прошлой статье про карты A5000 была лидером в общем забеге в пересчете попугаев на доллары, насколько я помню.
Мы видим, что по характеристикам А6000 Ada выглядит перспективнее, чем А100. Но она дороже
Тут борются несколько вещей:
Наценка на карты Tesla обычно выше, чем на просто профессиональные;
Прошлое поколение не думает дешеветь;
С ростом пузыря "наценка" относительно игровых карт растёт, и растет число методов, которыми Nvidia "закручивает гайки";
Вообще кажется в идеальном мире, что с выходом Ada карты прошлого поколения должны быть подешеветь в разы. Но на практике цены на A100 совсем какие-то рандомные и кажется только выросли.
они нужны для сборки DKMS, в виде которого поставляется драйвер out-off-tree; этот драйвер в свою очередь нужен для работы GPU Nvidia
А можете подробнее тут расписать, как правильно драйвера выбирать? Поиск по пакетам в актуальной версии выдает вот это, я раньше ставил и не парился, а сейчас вот сколько версий:
У Телеграма лимиты маловаты для больших комьюнити, но по сути это их способ борьбы со спамом и способ не потерять контроль.
Возможно задел на будущее (платные бизнес-фичи), но именно в Телеграме, если не считать скамных ботов с варезом и "подпишись на 10 ботов и каналов", почти не стоит проблемы входящего спама в личку, или всё режется настройками и отписками.
Не уверен кстати, что так можно делать без последствий. Всё-таки лучше понять, что именно жрёт, и точечно удалять и самое главное, не допускать впредь, или высказать коллеге а-та-та.
В данной статье идёт речь про датасет для детекции языка.
Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".
Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.
У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.
Одно время в одной только Индии было более 1000 языков.
Поправил ссылку
Они могут быть использованы в первую очередь для детекции речи.
В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.
Примерно вот такие
Тут ведь используются как-то дополнительно почищенные валидационные датасеты? Можете на них тоже приложить ссылку?
Ответ очевиден - так можно собрать больше информации. И плевать им на вашу безопасность.
В сумме с выдачей по паспорту и навязыванием СДЭК id выглядит как двойное издевательство и лицемерие.
И не надо рассказывать про защиту пользователей - давно существуют одноразовые ключи, 2FA, криптография - и всё без дополнительного сбора персональной информации (которая утекает террористам) и навязывания ненужных экосистем.
Так что анти человеческие практики применяются вашей компанией целенаправленно. Зачем клиентам при получении какой-то фигни увеличивать базу, которая будет передана террористам - непонятно.
Вывод напрашивается очевидный - не пользоваться услугами и максимально бойкотировать использование вашей компании.
Хорошо, что закон про оборотные штрафы приняли, но мне лично кажется, что в случае таких массовых сливов или какое-то звено руководства работает с террористами, или административной ответственности категорически недостаточно.
Честно говоря, с учетом специфики работы компании СДЭК с данными клиентов, эта статья кажется форменным издевательством.
Там в репозитории есть примеры
Но вообще нормализовать к -1 ... 1
Не совсем понял в итоге, кто кого дороже по мнению автора статьи?
А он реально нужен?
нет гарантии на бу
Потому, что с ростом класса видеокарты её цена всё больше отрывается от линейного масштабирования по сравнению с игровыми картами. И в топовом сегмента наценка уже кратная.
А всякие H100 и L40 и похожее не получилось достать? Интересно почитать было бы.
Понятно, что для задач тренировки гигантских сеток A5000 Ada не подойдет, но для инференса карточка точно интересная. У вас в прошлой статье про карты A5000 была лидером в общем забеге в пересчете попугаев на доллары, насколько я помню.
Тут борются несколько вещей:
Наценка на карты Tesla обычно выше, чем на просто профессиональные;
Прошлое поколение не думает дешеветь;
С ростом пузыря "наценка" относительно игровых карт растёт, и растет число методов, которыми Nvidia "закручивает гайки";
Вообще кажется в идеальном мире, что с выходом Ada карты прошлого поколения должны быть подешеветь в разы. Но на практике цены на A100 совсем какие-то рандомные и кажется только выросли.
А можете подробнее тут расписать, как правильно драйвера выбирать? Поиск по пакетам в актуальной версии выдает вот это, я раньше ставил и не парился, а сейчас вот сколько версий:
У Телеграма лимиты маловаты для больших комьюнити, но по сути это их способ борьбы со спамом и способ не потерять контроль.
Возможно задел на будущее (платные бизнес-фичи), но именно в Телеграме, если не считать скамных ботов с варезом и "подпишись на 10 ботов и каналов", почти не стоит проблемы входящего спама в личку, или всё режется настройками и отписками.
Любые совпадения в статье с реальностью случайны, лучше прочитать документацию и прогуглить форумы, но подходы полезные
Не уверен кстати, что так можно делать без последствий.
Всё-таки лучше понять, что именно жрёт, и точечно удалять и самое главное, не допускать впредь, или высказать коллеге а-та-та.
Для продовых сервисов маст
И да, испытываю некий диссонанс от сравнения цены и попугаев на A100 против A5000 ADA.