Как стать автором
Обновить

Релиз профайлера данных Desbordante 2.0.0

Время на прочтение2 мин
Количество просмотров556

16 апреля 2024 года состоялся второй мажорный релиз профайлера данных Desbordante (исп., безграничный), который позволяет проводить поиск различных примитивов в таблицах. Исходный код проекта опубликован на GitHub под лицензией GNU Affero General Public License v3.0. Первая стабильная версия Desbordante вышла в декабре 2023 года.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Онлайн-митап LaTech Data Talks — анонс

Время на прочтение1 мин
Количество просмотров807


Всем привет! 30 ноября в 19:00 по московскому времени мы проведем онлайн-митап для специалистов по работе с данными. Для участия необходимо зарегистрироваться.

Спикеры расскажут, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет пользователям находить то самое платье или те самые классные кроссовки:)

Под катом программа встречи, спикеры и тезисы их выступлений.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Оффер за 2 дня в X5: для System Analyst

Время на прочтение2 мин
Количество просмотров2.5K

Приглашаем на Weekend Offer в X5 Group. Мы сокращаем дистанцию для системных аналитиков до двух дней: 20-го июня интервью, 21-го июня оффер.

Подать заявку

Читать далее
Всего голосов 7: ↑4 и ↓3+1
Комментарии0

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Время на прочтение22 мин
Количество просмотров7.1K

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии27

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.5K

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.

Прочитать весь дайджест
Всего голосов 11: ↑10 и ↓1+9
Комментарии5

Мой личный опыт восстановления старых фотографий с помощью нейросетей

Время на прочтение2 мин
Количество просмотров16K

Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий.

Читать далее
Всего голосов 18: ↑13 и ↓5+8
Комментарии31

ML | Hydra

Время на прочтение8 мин
Количество просмотров8.1K

Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим как его использовать на простом примере обучения ML-модели...

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Структура команды Data Science: ключевые модели и роли

Время на прочтение16 мин
Количество просмотров8.6K

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.
Читать дальше →
Всего голосов 2: ↑1 и ↓10
Комментарии2

Voila: из ноутбука в веб-приложение

Время на прочтение5 мин
Количество просмотров8.8K

Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

Время на прочтение14 мин
Количество просмотров2.2K

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но если уж начал автоматизацию чатов, то к делу надо подходить серьёзно. Единственное, что нас беспокоило — это процент автоматизации. В мире нет ничего более непонятного, сложного и запутанного, чем естественный язык и поведение клиентов. И я знал, что довольно скоро мы в это окунёмся.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии4

Как программист датасаентистам кернелы писал

Время на прочтение5 мин
Количество просмотров7.2K

Мало кто верит, что современный data science-стек может быть построен не на Python, но такие прецеденты есть :). Стек Одноклассников формировался долгие годы, в первую очередь программистами, перешедшими в data science, но всё ещё остались близкими к проду, поэтому в его основе лежат открытые технологии JVM-стека: Hadoop, Spark, Kafka, Cassandra и т.д. Это помогает нам сокращать время и затраты на ввод моделей в эксплуатацию, но иногда создаёт и сложности. Например, при подготовке базовых решений для участников SNA Hackathon 2019 пришлось сжать волю в кулак и погрузиться в мир динамической типизации. Подробности (и лёгкий троллинг) под катом :)

Читать дальше →
Всего голосов 25: ↑20 и ↓5+15
Комментарии4

SIBUR Challenge 2019 – соревнование по анализу промышленных данных

Время на прочтение3 мин
Количество просмотров2.1K
Всем привет!

Продолжается онлайн-этап конкурса по анализу данных – SIBUR Challenge 2019.

Коротко о главном:

  • SIBUR Challenge – это наш фирменный хакатон, который мы делаем вместе с AI Community. В качестве кейсов мы используем реальные производственные задачи, основанные на реальных данных.
  • Призовой фонд – 1 000 000 рублей, плюс вакансии и стажировки победителям.
  • Включиться в гонку можно до 17 ноября, офлайн-этап пройдёт 23-24 ноября в Москве.
  • На данный момент зарегистрировались уже более 1200 участников.

Задачи делятся на две группы:

  • Первая – про бизнес: необходимо предсказать рыночную стоимость важных для отрасли продуктов;
  • Вторая – про производство: необходимо предсказать активность катализатора, который участвует в процессе полимеризации (о том, какие ещё в нефтехимии бывают процессы, можно прочитать в статье Алексея Винниченко в нашем блоге).

Остальное – под катом.


Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

Как я решал соревнование по машинному обучению data-like

Время на прочтение7 мин
Количество просмотров19K


Привет, Хабр. Недавно прошло соревнование от Тинькофф и McKinsey. Конкурс проходил в два этапа: первый — отборочный, в kaggle формате, т.е. отсылаешь предсказания — получаешь оценку качества предсказания; побеждает тот, у кого лучше оценка. Второй — онсайт хакатон в Москве, на который проходит топ 20 команд первого этапа. В этой статье я расскажу об отборочном этапе, где мне удалось занять первое место и выиграть макбук. Команда на лидерборде называлась "дети Лёши".


Соревнование проходило с 19 сентября до 12 октября. Я начал решать ровно за неделю до конца и решал почти фулл-тайм.


Краткое описание соревнования:


Летом в банковском приложении Тинькофф появились stories (как в Instagram). На story можно отреагировать лайком, дизлайком, скипнуть или просмотреть до конца. Задача предсказать реакцию пользователя на story.


Соревнование по большей части табличное, но в самих историях есть текст и картинки.

Читать дальше →
Всего голосов 48: ↑37 и ↓11+26
Комментарии5

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

Время на прочтение19 мин
Количество просмотров16K

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.



Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.


В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.


Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать дальше →
Всего голосов 21: ↑20 и ↓1+19
Комментарии23

Записи докладов ок.tech: Data Толк #3

Время на прочтение1 мин
Количество просмотров2.2K


6 ноября в московском офисе компании Одноклассники прошел ок.tech Data Толк #3, в этот раз мероприятие было посвящено рекомендательным системам. Вместе с коллегами из OK.ru, Joom и СколТеха мы поговорили про прошедший RecSys19, а также о теории, практике и трендах рекомендательных систем.

Заходите под кат, если вам интересны рекомендательные системы.
Внутри поста: видеозаписи докладов и дискуссии, а также презентации спикеров.
Всего голосов 15: ↑15 и ↓0+15
Комментарии0

ок.tech: Data Толк #4 новогодний выпуск

Время на прочтение3 мин
Количество просмотров1.9K


Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за это время Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать дальше →
Всего голосов 14: ↑12 и ↓2+10
Комментарии0

ок.tech: Data Толк #4 интервью спикеров

Время на прочтение4 мин
Количество просмотров1.2K


Подходит к концу десятилетие, и без преувеличения можно сказать, что одной из основных тенденций этих десяти лет стало повсеместное внедрение анализа данных. От проектирования самолётов до выплавки стали, от вызова такси до умных чайников и говорящих колонок. Рекомендательные системы, компьютерное зрение, обработка естественного языка, машинное обучение, оптическое распознавание символов, нейронные сети, искусственный интеллект, все эти направления деятельности прочно закрепились в мире информационных технологий и нет ни малейшего повода полагать, что в ближайшее время что-то изменится. Общественность ждёт, что Data Science придет во все большее количество сфер жизни человека, автомобили станут беспилотными, а границы государств будут охранять огромные боевые человекоподобные роботы.

Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем. Ответы на все эти вопросы вы сможете получить 16 декабря на ок.tech: Data Толк #4. В предверии мероприятия мы поговорили со спикерами о прошлом настоящем и будущем Data Science. Под катом вас ждут мини-интервью.

Зарегистрироваться на мероприятие.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя?

Время на прочтение9 мин
Количество просмотров16K

Привет, Хабр!


Новогодние праздники — отличное время, чтобы отдохнуть от IT использовать профессиональные навыки в любимом хобби. Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и строго оффлайновом коммьюнити. Под катом картинки графов и бесполезная статистика.

Читать дальше →
Всего голосов 31: ↑29 и ↓2+27
Комментарии24

Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc, Oxxxymiron, Дядя Женя. Эпизод 2

Время на прочтение8 мин
Количество просмотров11K

R. Text Mining. Rap. Episode 2


Данная статья является продолжением материала «Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern» и сейчас я постараюсь детально проанализировать творчество Нойз Мс и Оксимирона. Однако, хочу отметить, что это не будет сравнение между ними. Цель этой статьи не показать кто из них круче, а передать глубину и разнообразие их музыки, которой мы имеем возможность наслаждаться в реальном времени. Нам очень повезло, что мы можем следить за их успехами и ходить на их концерты. В этом материале не будет сопоставления как в первой части, не будет такого сильного контраста.

В этот раз анализ также делался при помощи R, Python и API Genius.com Подробнее можно прочитать в первой части, так как не хочу повторяться.
Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии4

Простой пример кластерного анализа алкогольных предпочтений по странам на R

Время на прочтение8 мин
Количество просмотров10K

Привет, Хабр! Сегодня хочу поделиться небольшим примером того, как можно проводить кластерный анализ. В этом примере читатель не найдет нейронных сетей и прочих модных направлений. Данный пример может служить точкой отсчета для того, чтобы сделать небольшой и полный кластерный анализ для других данных. Всем заинтересованным — добро пожаловать под кат.

Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии2
1
23 ...