Pull to refresh
23
0
Учителев Никита @ser0t0nin

Personalization Team Lead

Send message

Огромное спасибо! Даже не думал, что так подробно все расскажете)) да, мне очень помогло, ещё осмыслю результаты.

Слушайте, я вот нигде не могу найти нормальное сравнение NAS систем по производительности воспроизведения 4К видео - а это для меня основная задача, пока не могу решиться на покупку. Понятно, что фотографии и файлы любой NAS худо бедно может скопировать и прочее. У меня телевизор LG NANO916NA с WebOS на борту, быстрая гигабитная сеть. Если я в такой сервер воткну два диска по 8ТБ без RAID, буду туда закачивать mkv видео 4К по 50+ГБ каждый, сможет ли такая система без лагов воспроизводить контент? От чего это зависит, от процессора? Как понять, когда используется перекодирование видео на лету на стороне NAS? Автор, можете ли какой-то подобный тест провести? Уверен, многим будет интересно, тк понятных материалов на эту тему именно для DS220 мне найти не удалось

Я не могу представить, что я работаю где-то кроме опенспейса. Вообще не разделяю ни одной претензии в тредах к посту, у нас не шумно, двери не хлопают (их нет), у нас большие столы, поэтому ногами никто никого не задевает, редкие переговоры коллег (от души пообщаться все ходят в переговорки) помогают быть в курсе релевантных мелких локальных дел. Единственное — да, бывает душновато, но здесь это скорее вопрос не к опенспейсу а вообще к вентиляции в БЦ. Но видимо все люди делятся на два типа — кто любит и кто не любит опенспейсы
Спасибо за статью, было интересно! Правильно ли я понял, что собранный спарком датафрейм в конце делает toPandas() на какой-то локальный сервер (а точнее на драйвер спарка, кстати сервер в кластере или в сторонке?), где с ним уже работают модели? Видел про 10кк строк и 170 столбцов — так понял, что это как раз размер этого датафрейма.
Грубая оценка (пусть каждая фича это double, то есть 8 байт):
10 000 000 * 170 * 8 / 1024 / 1024 / 1024 ~ 12ГБ + параллельный gridsearch в 10 потоков это 120ГБ, что для локальной машины часто предел в части RAM. Ассортимент обычно растет, а значит будет увеличиваться и этот объем — вероятно через год могут начаться проблемы с этим, что думаешь на этот счет? Или как-то иначе это устроено? Не пробовали с диска читать или демонизировать ml-движок и слать примеры поштучно или батчами?

Дык наверняка Google Chrome пользовались (ещё и отправка анонимных данных наверное включена), очевидно ж там свой сквозной идентификатор. Ещё не надо удивляться похожим артефактам, связанным с ОС Android

Спасибо! Получается вы можете любой проект представить в виде вектора в пространстве размерности 25к? какой примерно объем обучающей выборки у вас?
Каждая колонка в таблице — это нейрон, комбинация из трех элементов: задача проекта, события и значения события. Сейчас у нас насчитывается примерно 25 тысяч нейронов.

Вот совсем не понял, нейрон — функция логистической регрессии, а не колонка. Вообще можно ли на архитектуру сети взглянуть? или там просто персептрон?
Даже скорее бестолкового продукта

Такой безграмотной статьи давно на Хабре не видел, простите.

ох не зарекайся насчет пепла и канав

Нужно махом векторизовать всю историю пользователя целиком. Самый простой вариант — классификация tf-idf по доменам, либо по токенам, выделенным из url. Вариант посложнее — скачать все страницы, очистить от html кода, векторизовать doc2vec, lda или artm, затем представить пользователя как определенную композицию таких тематик. Такие данные можно скармливать моделям посложнее, например нейросети. В первом случае можно обойтись svm.
Разумеется нужна и обучающая выборка — ее можно получить из связок идентификатора (куки) с соцсетями или дейтингами. На момент написания статьи, в нашем распоряжении было до миллиона таких связок и точность, например, гендерной модели составляла более 80%, что превышает общепринятый средний показатель для телевизора.

При регистрации через LinkedIn сайт возвращает код 500

В данной задаче классификатор только вычислял вероятность того, что отзыв положительный, градуировку шкалы с разбиением на 3 класса делали уже независимо, убедившись в первую очередь, что гистограмма количества твитов в разных диапазонах вероятностей более менее ровная + построив еще несколько графиков, которые не противоречили выбранной гипотезе.
Скажем так, не я первый такой подход применил. Уже писал выше — вместе с проведением исследования заодно хотелось освоить новую технологию. Метод максимальной энтропии справился бы превосходно, я сравнивал предложенный метод с некоторыми другими более простыми методами, качество работы нейронной сети не хуже. В частности в статье указывается, что log-reg на tf-idf по биграммам слов показывает такое же качество, остальные были чуть похуже
Streaming API вроде как немножко другое. В такой клиент будут пушиться новые твиты, которые подходят под заданный критерий, старые, по моему, таким образом не достать.

Получается, да. Реально наблюдал очень низкий процент.

Открытые API есть только у VK и Twitter, доступ к остальным получить несколько сложнее и ограничения там жеще. Я пытался анализировать и записи VK, но большинство из них по данным хештегам либо реклама, либо картинки, либо музыка, текстов обычных пользователей реально очень мало.
Конечно, лексика, грамматика и образы «твиттерного мышления» нексколько отличаются от таковых в развёрнутых текстах. Но… вопрос, насколько.

Настолько, что при ограничении в 140 символов люди стараются как можно сильнее ужаться, а на вики наоборот стремятся писать более развернуто. Мне кажется, это значимая разница с точки зрения модели языка. И такие слова как «олдскульно», «дноклы» и «фанатею» вряд ли можно найти на Википедии, нужно в дополнение на Лурке еще обучать, что ли :)
75% процентов Accuracy получены при классификации на два класса с threshold = 0.5 в условиях сбалансированных выборок
Спасибо за отзыв! Отвечаю:
1) вообще twitter всегда отдает частично неполные данные за период не более 6 — 9 дней с момента запроса и это не зависит от способа их получения, я собирал данные в течение трех дней, таким образом набрал твиты за 10 дней
2) Вообще хештег это просто ссылка на результат поиска, а при поиске Твиттер не учитывает символ #, так что это аналогично поиску по упоминаниями
3) Поиск по русскоязычным твитам, в API Твиттера можно указать желаемый язык твита; геопозиция, к сожалению, указана у очень маленького процента твитов
По-настоящему несмещенные выборки только ВЦИОМ умудряется находить)
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity