Comments / Profile of Shedar / Habr

How to become an author

Пользователь

Profile Publications 5Comments 124Bookmarks 49

Как мы научились понимать продажи в колл-центре, или С чего начать ML-проект, если непонятно ничего

Shedar Dec 16 2021 at 00:46

Получилось ли финальный вариант задачи разметки сделать тоже бинарными вопросами или сделали выделение интервалов? Интуитивно кажется, что для выделения работы с возражениями по каждому продукту не достаточно да/нет на уровне звонка.

0

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

Shedar Mar 30 2021 at 21:48

Не увидел в статье, на какой связке решили остановиться?
Судя по производительности, Tacotron2 + LPCNet либо с заменой Tacotron2?

0

Конкурс по программированию: Торговля

Shedar Jun 21 2018 at 09:55

Время на ход ограничено 1 секундой, а есть ли ограничение на время работы конструктора?

+1

Чему умные машины должны научиться у неокортекса

Shedar Jul 18 2017 at 02:20

Всё что написано ниже — мои личные впечатления, если кто-то может меня поправить/опровергнуть или подтвердить мои наблюдения — буду благодарен.

Я на определенном этапе смотрел видео Numenta. У меня остались очень смешанные впечатления.
С одной стороны, они на сайте прямо говорят что мы ничего нового не изобрели, мы просто то что есть сложили правильно. С другой стороны, они вводят свою терминологию и не проводят аналогии с существующими алгоритмами/подходами, что настораживает.

Например, SDR, про который они говорят в этой статье и в половине видео их школы (вроде 4 из 10 видео посвящалось SDR), я бы сказал что это Bloom filter. И тогда вместо общих фраз про очень много комбинаций которые SDR может сохранить и «SDR не мешают друг другу» — можно взять формулу и посчитать вероятность коллизий. И вместо 4 видео, людям знакомым с фильтром Блума достаточно будет одной минуты.

Следующий момент, про то, что в SDR активируются одни и те же нейроны для подобных сущностей. Идея отличная, но для её решения на время, когда я смотрел в их сторону, предлагалось для каждого типа входных данных писать преобразователь, который будет маппить входной сигнал на SDR так, чтобы у похожих входных сигналов пересекались выходные наборы бит. Для простых вещей типа число/дата есть из коробки, для чего-то более сложного — нужно писать самому, ручками, а не «оно само», и это мне кажется нетривиальной задачей. Во-первых, я за то чтобы сказать что это Locality sensitive hashing вместо изобретения своей терминологии, во-вторых фраза «у обоих SDR будут активными одни и те же группы нейронов, представляющие «домашнее животное» и «когтистый», но не «пушистый»» фактически звучит «если разработчик определит когтистость и пушистость как важные фичи LSH функции и научит их выделять из входных данных, то нейросеть сможет сравнивать похожесть по этим критериям», что не так красиво звучит.

Касательно обучения, читал статью на Arxiv, ссылку сейчас уже не найду, сводилась к тому, что их нейросеть учится лучше всех узнавать новые данные. При этом в приложении к статье приводились параметры нейросетей, нейросеть Numenta, не помню, на порядок или нет, но точно в разы больше традиционных. Если традиционной добавить нейронов — она тоже будет лучше запоминать обучающую выборку.

0

Словарное расширение для браузера: больше, чем онлайн-переводчик

Shedar Apr 21 2017 at 08:02

Сейчас расширение умеет определять части речи

В каких ситуациях? По статье думал, что оно по предложению понимает часть речи слова и дает только перевод слова в соответствии с частью речи.

Попробовал несколько вариантов

0

Пользователи Windows получили возможность работать с openSUSE (и Arch Linux)

Shedar Jan 19 2017 at 19:29

Мне пока не хватает поддержки CUDA для того, чтобы уйти от перезагрузки windows/linux

+1

Нейросетка играет в Доту

Shedar Jan 16 2017 at 12:24

пару суток на GeForce GTX 1080 на эксперимент

Насколько получается её загрузить? На днях поставил себе GTX 1080, пробовал позапускать примеры с gym/universe. Упирается в процессор, видеокарта не особо загружена. Или я что-то делаю не так, или процессор тоже пора менять (сейчас i5 2500), или для симуляций это типично и нет смысла менять еще половину системника.

+2

Машинное обучение — это легко

Shedar Jan 11 2017 at 15:16

Из англоязычных вводных могу посоветовать еще цикл статей (в текущий момент 6 статей) Machine Learning is Fun! Легко и интересно читается, практически на пальцах объясняются типичные подходы к различным задачам, часть с кодом, часть без.

0

Разделение текста на предложения с помощью Томита-парсера

Shedar Jan 11 2017 at 12:33

Для английского использовал spaCy. Выбрал, отчасти, потому что нужен был и POS tagger, который в нем тоже есть.

+1

Конкурс по программированию на JS: Классификатор слов

Shedar May 26 2016 at 20:42

Интересно будет после завершения конкурса почитать, чем утилизировали и насколько помогло.

0

Конкурс по программированию на JS: Классификатор слов

Shedar May 24 2016 at 00:49

Гипотеза, инсайд или получилось взять порог в 80%?

0

Конкурс по программированию на JS: Классификатор слов (дополнение)

Shedar May 21 2016 at 17:36

Что является уверенной разницей?
Например, на одном блоке одно решение даст 65% а другое 75%. Является ли это уверенной разницей?
У меня разброс между самым удачным и самым неудачным блоком в тестовом наборе больше 20%

+1

Конкурс по программированию на JS: Классификатор слов

Shedar May 18 2016 at 21:59

Максимум в комментариях, от которого человек не отказался, вроде 78% у vintage тут, еще 3 мая.

0

Конкурс по программированию на JS: Классификатор слов

Shedar May 17 2016 at 13:57

Можно ли считать, что код будет выполняться не в strict mode? Т.е. можно ли использовать при минификации оптимизации, которые будут в strict mode выдавать ошибки?

0

Конкурс по программированию на JS: Классификатор слов

Shedar Apr 28 2016 at 13:07

1. Есть ли ограничения по географии участников?
2. С учетом того, что проверки после сабмита нет, будет ли дана возможность исправиться, если засабмиченная версия не запустилась или сразу на выход?

+1

Amazon CloudDrive: не факт, что сможешь скачать обратно

Shedar Mar 24 2016 at 13:28

Затронута интересная тема контроля целостности облачных бекапов. Один немаловажных из факторов выбора сервиса для бекапов. Основных варианта я вижу два, либо клиент проверяет контрольные суммы файлов время от времени, либо провайдер услуги.
На 5+Тб, даже проверка раз в месяц — это больше терабайта в неделю на скачивание, что для многих не вариант. И совсем не вариант, если скачивание файлов ограничено/платное.
Гуглом по запросу "имя_сервиса_бекапов integrity" нашел пока для Backblaze — "Every few weeks ALL of the files in the datacenter are passed over and re-read and the checksums are recalculated" и crashplan — "A regularly scheduled task that checks a backup archive for any corrupted files and self-heals those files". Crashplan не уточняет периодичность проверки на битые файлы. Т.е., как минимум, эти два сервиса проверки делают, но узнать, что что-то пошло не так, можно и через месяц после того как файл потерялся.

+1

Генерация LINQ to SQL кода для SQLite в .NET (C#)

Shedar Jul 10 2015 at 22:36

В SQL CE смущает то, что он deprecated

Posted by Microsoft on 18.02.2013 at 11:52
Hi,
Thank you very much for your feedback on this issue. SQL Server compact edition is in deprecation mode with no new releases planned near future. Last release SQL CE 4.0SP1 (and earlier releases that are still in the support cycle) will continue to be supported through its lifecycle and Microsoft is committed to fix any major, production blocking issues found in these releases. At this point, we don't consider this issue to be in that category and hence we are closing this issue.
On the desktop/laptop deployments, migrating to SQL Server LocalDB/SQL Express is a possible option for many of the current users (http://msdn.microsoft.com/en-us/library/hh510202.aspx)

thanks for your support

(с) источник

Про скрытые грабли подтверждаю. Генератор запросов от mssql использовать для чуть более сложных вещей не получится. Почти сразу наступил, что лимиты и генерация автоинкремента отличается в sqlite. А с указанием другого генератора — проблемы.
При создании DataContext с указанием внешнего маппинга, для генерации sql используется либо указанный в атрибуте Provider класс, либо провайдер mssql. Причем класс, указанный как провайдер, должен реализовывать internal интерфейс из System.Data.Linq, что по понятным причинам невозможно.

Пока наиболее жизнеспособным выглядит решение от деварт, с их собственным DataContext, который принимает их реализацию провайдера. Но решение платное.

0

7 мифов о работе мозга

Shedar Oct 17 2014 at 23:25

Сразу оговорюсь, я не знаю, что из этого миф, а что правда, речь ниже только про подачу материала.
Впечатления от ролика, как от презентаций некоторых больших компаний. Когда всё сказанное правда, но это только та часть правды, которая формирует нужное мнение. Так и тут, сказано правду, но если задуматься, то оно не доказывает, что исходное утверждение миф.

+6

Самый простой способ организовать видеотрансляцию на сайте

Shedar Jul 24 2014 at 01:14

Что касается задержки, то обычно она не более 1-2 секунд

На смартфонах тоже? Если да, то подскажите в какую сторону смотреть. Т.к. из более-менее универсальных и более-менее стандартизированных способов для смартфонов знаю только HLS, который из-за структуры с сегментами не даст вложиться в 1-2 секунды.

0

Проблема 10 миллионов соединений

Shedar Feb 17 2014 at 23:18

Поправка на год:
«I created this 2013-Feb-13 and it should be done around 2013-July.»
всё должно было быть закончено еще прошлым летом, я ждал, но не дождался

0

1

2 3 ...