Comments / Profile of ser0t0nin / Habr

Учителев Никита @ser0t0nin

Personalization Team Lead

Profile Publications 3 Comments 39 Bookmarks 10

Обзор домашнего NAS Synology DS220+

ser0t0nin Jan 5 2022 at 13:41

Огромное спасибо! Даже не думал, что так подробно все расскажете)) да, мне очень помогло, ещё осмыслю результаты.

Look

Обзор домашнего NAS Synology DS220+

ser0t0nin Jan 4 2022 at 13:46

Слушайте, я вот нигде не могу найти нормальное сравнение NAS систем по производительности воспроизведения 4К видео - а это для меня основная задача, пока не могу решиться на покупку. Понятно, что фотографии и файлы любой NAS худо бедно может скопировать и прочее. У меня телевизор LG NANO916NA с WebOS на борту, быстрая гигабитная сеть. Если я в такой сервер воткну два диска по 8ТБ без RAID, буду туда закачивать mkv видео 4К по 50+ГБ каждый, сможет ли такая система без лагов воспроизводить контент? От чего это зависит, от процессора? Как понять, когда используется перекодирование видео на лету на стороне NAS? Автор, можете ли какой-то подобный тест провести? Уверен, многим будет интересно, тк понятных материалов на эту тему именно для DS220 мне найти не удалось

Look

Как не сойти с ума в Open Space: делаем новый офис с нуля

ser0t0nin Nov 21 2019 at 17:08

Я не могу представить, что я работаю где-то кроме опенспейса. Вообще не разделяю ни одной претензии в тредах к посту, у нас не шумно, двери не хлопают (их нет), у нас большие столы, поэтому ногами никто никого не задевает, редкие переговоры коллег (от души пообщаться все ходят в переговорки) помогают быть в курсе релевантных мелких локальных дел. Единственное — да, бывает душновато, но здесь это скорее вопрос не к опенспейсу а вообще к вентиляции в БЦ. Но видимо все люди делятся на два типа — кто любит и кто не любит опенспейсы

Look

Как прогнозировать спрос и автоматизировать закупки с помощью machine learning: кейс Ozon

ser0t0nin Feb 8 2019 at 15:15

Спасибо за статью, было интересно! Правильно ли я понял, что собранный спарком датафрейм в конце делает toPandas() на какой-то локальный сервер (а точнее на драйвер спарка, кстати сервер в кластере или в сторонке?), где с ним уже работают модели? Видел про 10кк строк и 170 столбцов — так понял, что это как раз размер этого датафрейма.
Грубая оценка (пусть каждая фича это double, то есть 8 байт):
10 000 000 * 170 * 8 / 1024 / 1024 / 1024 ~ 12ГБ + параллельный gridsearch в 10 потоков это 120ГБ, что для локальной машины часто предел в части RAM. Ассортимент обычно растет, а значит будет увеличиваться и этот объем — вероятно через год могут начаться проблемы с этим, что думаешь на этот счет? Или как-то иначе это устроено? Не пробовали с диска читать или демонизировать ml-движок и слать примеры поштучно или батчами?

Look

Google держит вас в персональном «поисковом пузыре» даже если выйти из аккаунта

ser0t0nin Dec 6 2018 at 21:17

Дык наверняка Google Chrome пользовались (ещё и отправка анонимных данных наверное включена), очевидно ж там свой сквозной идентификатор. Ещё не надо удивляться похожим артефактам, связанным с ОС Android

Look

Как мы предсказываем дату окончания и оценку проекта с помощью нейросети

ser0t0nin Mar 27 2018 at 16:25

Спасибо! Получается вы можете любой проект представить в виде вектора в пространстве размерности 25к? какой примерно объем обучающей выборки у вас?

Look

Как мы предсказываем дату окончания и оценку проекта с помощью нейросети

ser0t0nin Mar 27 2018 at 14:41

Каждая колонка в таблице — это нейрон, комбинация из трех элементов: задача проекта, события и значения события. Сейчас у нас насчитывается примерно 25 тысяч нейронов.

Вот совсем не понял, нейрон — функция логистической регрессии, а не колонка. Вообще можно ли на архитектуру сети взглянуть? или там просто персептрон?

Look

Встречаем Windows Machine Learning — WinML

ser0t0nin Mar 21 2018 at 21:49

Даже скорее бестолкового продукта

-1

Look

Встречаем Windows Machine Learning — WinML

ser0t0nin Mar 21 2018 at 21:41

Такой безграмотной статьи давно на Хабре не видел, простите.

-1

Look

«Простое» программирование на python

ser0t0nin Jan 10 2018 at 14:41

ох не зарекайся насчет пепла и канав

Look

Иерархическая классификация сайтов на Python

ser0t0nin Aug 30 2017 at 19:11

Нужно махом векторизовать всю историю пользователя целиком. Самый простой вариант — классификация tf-idf по доменам, либо по токенам, выделенным из url. Вариант посложнее — скачать все страницы, очистить от html кода, векторизовать doc2vec, lda или artm, затем представить пользователя как определенную композицию таких тематик. Такие данные можно скармливать моделям посложнее, например нейросети. В первом случае можно обойтись svm.
Разумеется нужна и обучающая выборка — ее можно получить из связок идентификатора (куки) с соцсетями или дейтингами. На момент написания статьи, в нашем распоряжении было до миллиона таких связок и точность, например, гендерной модели составляла более 80%, что превышает общепринятый средний показатель для телевизора.

Look

Мальта как новое направление для IT специалистов

ser0t0nin Jun 20 2017 at 10:41

При регистрации через LinkedIn сайт возвращает код 500

Look

Майк Шапиро, DSSD/EMC: «Когда паззл сложился, мы получили решение, опережающее продукты конкурентов в десять раз»

ser0t0nin Mar 11 2016 at 00:49

Интересно было бы Аэроспайк потестить на таком железе)

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 18 2016 at 13:50

В данной задаче классификатор только вычислял вероятность того, что отзыв положительный, градуировку шкалы с разбиением на 3 класса делали уже независимо, убедившись в первую очередь, что гистограмма количества твитов в разных диапазонах вероятностей более менее ровная + построив еще несколько графиков, которые не противоречили выбранной гипотезе.

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 18 2016 at 13:16

Скажем так, не я первый такой подход применил. Уже писал выше — вместе с проведением исследования заодно хотелось освоить новую технологию. Метод максимальной энтропии справился бы превосходно, я сравнивал предложенный метод с некоторыми другими более простыми методами, качество работы нейронной сети не хуже. В частности в статье указывается, что log-reg на tf-idf по биграммам слов показывает такое же качество, остальные были чуть похуже

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 18 2016 at 13:11

Streaming API вроде как немножко другое. В такой клиент будут пушиться новые твиты, которые подходят под заданный критерий, старые, по моему, таким образом не достать.

Получается, да. Реально наблюдал очень низкий процент.

Открытые API есть только у VK и Twitter, доступ к остальным получить несколько сложнее и ограничения там жеще. Я пытался анализировать и записи VK, но большинство из них по данным хештегам либо реклама, либо картинки, либо музыка, текстов обычных пользователей реально очень мало.

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 13 2016 at 12:59

Конечно, лексика, грамматика и образы «твиттерного мышления» нексколько отличаются от таковых в развёрнутых текстах. Но… вопрос, насколько.

Настолько, что при ограничении в 140 символов люди стараются как можно сильнее ужаться, а на вики наоборот стремятся писать более развернуто. Мне кажется, это значимая разница с точки зрения модели языка. И такие слова как «олдскульно», «дноклы» и «фанатею» вряд ли можно найти на Википедии, нужно в дополнение на Лурке еще обучать, что ли :)

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 13 2016 at 12:55

75% процентов Accuracy получены при классификации на два класса с threshold = 0.5 в условиях сбалансированных выборок

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 13 2016 at 12:26

Спасибо за отзыв! Отвечаю:
1) вообще twitter всегда отдает частично неполные данные за период не более 6 — 9 дней с момента запроса и это не зависит от способа их получения, я собирал данные в течение трех дней, таким образом набрал твиты за 10 дней
2) Вообще хештег это просто ссылка на результат поиска, а при поиске Твиттер не учитывает символ #, так что это аналогично поиску по упоминаниями
3) Поиск по русскоязычным твитам, в API Твиттера можно указать желаемый язык твита; геопозиция, к сожалению, указана у очень маленького процента твитов

Look

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

ser0t0nin Jan 12 2016 at 19:24

По-настоящему несмещенные выборки только ВЦИОМ умудряется находить)

Look