Результаты поиска по запросу «[Data Mining]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

Релиз профайлера данных Desbordante 2.0.0

2 мин

556

Open source*Python*Data Mining*Управление разработкой*Статистика в IT

16 апреля 2024 года состоялся второй мажорный релиз профайлера данных Desbordante (исп., безграничный), который позволяет проводить поиск различных примитивов в таблицах. Исходный код проекта опубликован на GitHub под лицензией GNU Affero General Public License v3.0. Первая стабильная версия Desbordante вышла в декабре 2023 года.

mariya_bzhitskaja 12 ноя 2021 в 11:11

Онлайн-митап LaTech Data Talks — анонс

1 мин

807

Блог компании Lamoda TechData Mining*Big Data*Машинное обучение*Управление продуктом*

Всем привет! 30 ноября в 19:00 по московскому времени мы проведем онлайн-митап для специалистов по работе с данными. Для участия необходимо зарегистрироваться.

Спикеры расскажут, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет пользователям находить то самое платье или те самые классные кроссовки:)

Под катом программа встречи, спикеры и тезисы их выступлений.

Читать дальше →

X5Tech 16 июн 2021 в 17:33

Оффер за 2 дня в X5: для System Analyst

2 мин

2.5K

Блог компании X5 TechАнализ и проектирование систем*Big Data*Аналитика мобильных приложений*Карьера в IT-индустрии

Приглашаем на Weekend Offer в X5 Group. Мы сокращаем дистанцию для системных аналитиков до двух дней: 20-го июня интервью, 21-го июня оффер.

→ Подать заявку

StrDA 20 июл 2023 в 10:11

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

22 мин

7.1K

Блог компании Magnit TechАлгоритмы*Big Data*Машинное обучение*Data Engineering*

Привет, Хабр! ~~Легендарная~~ команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем ~~опасном~~ бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

Syurmakov 18 авг 2023 в 18:26

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Простой

3 мин

3.5K

Блог компании UzumData Mining*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.

Прочитать весь дайджест

SergeySavkin 9 ноя 2022 в 14:57

Мой личный опыт восстановления старых фотографий с помощью нейросетей

2 мин

16K

Python*Data Mining*Алгоритмы*Big Data*Data Engineering*

Туториал

Технотекст 2022

Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий.

slivka_83 1 ноя 2022 в 15:38

ML | Hydra

8 мин

8.1K

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим как его использовать на простом примере обучения ML-модели...

kucev 25 ноя 2022 в 14:19

Структура команды Data Science: ключевые модели и роли

16 мин

8.6K

Data Mining*Big Data*Машинное обучение*Управление разработкой*Data Engineering*

Перевод

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.

Читать дальше →

slivka_83 10 ноя 2022 в 19:52

Voila: из ноутбука в веб-приложение

5 мин

8.8K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...

prinkov 28 ноя 2022 в 16:04

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

14 мин

2.2K

Блог компании Garage EightАнализ и проектирование систем*Data Mining*Машинное обучение*Natural Language Processing*

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но если уж начал автоматизацию чатов, то к делу надо подходить серьёзно. Единственное, что нас беспокоило — это процент автоматизации. В мире нет ничего более непонятного, сложного и запутанного, чем естественный язык и поведение клиентов. И я знал, что довольно скоро мы в это окунёмся.

dmitrybugaychenko 8 фев 2019 в 11:28

Как программист датасаентистам кернелы писал

5 мин

7.2K

Блог компании ОКPython*Data Mining*Big Data*Машинное обучение*

Мало кто верит, что современный data science-стек может быть построен не на Python, но такие прецеденты есть :). Стек Одноклассников формировался долгие годы, в первую очередь программистами, перешедшими в data science, но всё ещё остались близкими к проду, поэтому в его основе лежат открытые технологии JVM-стека: Hadoop, Spark, Kafka, Cassandra и т.д. Это помогает нам сокращать время и затраты на ввод моделей в эксплуатацию, но иногда создаёт и сложности. Например, при подготовке базовых решений для участников SNA Hackathon 2019 пришлось сжать волю в кулак и погрузиться в мир динамической типизации. Подробности (и лёгкий троллинг) под катом :)

Читать дальше →

+15

digitalsibur 7 ноя 2019 в 10:17

SIBUR Challenge 2019 – соревнование по анализу промышленных данных

3 мин

2.1K

Блог компании Цифровой СИБУРData Mining*Big Data*ХакатоныХимия

Всем привет!

Продолжается онлайн-этап конкурса по анализу данных – SIBUR Challenge 2019.

Коротко о главном:

SIBUR Challenge – это наш фирменный хакатон, который мы делаем вместе с AI Community. В качестве кейсов мы используем реальные производственные задачи, основанные на реальных данных.
Призовой фонд – 1 000 000 рублей, плюс вакансии и стажировки победителям.
Включиться в гонку можно до 17 ноября, офлайн-этап пройдёт 23-24 ноября в Москве.
На данный момент зарегистрировались уже более 1200 участников.

Задачи делятся на две группы:

Первая – про бизнес: необходимо предсказать рыночную стоимость важных для отрасли продуктов;
Вторая – про производство: необходимо предсказать активность катализатора, который участвует в процессе полимеризации (о том, какие ещё в нефтехимии бывают процессы, можно прочитать в статье Алексея Винниченко в нашем блоге).

Остальное – под катом.

Читать дальше →

EugeneBang 28 ноя 2019 в 14:00

Как я решал соревнование по машинному обучению data-like

7 мин

19K

Блог компании Open Data SciencePython*Программирование*Data Mining*Машинное обучение*

Привет, Хабр. Недавно прошло соревнование от Тинькофф и McKinsey. Конкурс проходил в два этапа: первый — отборочный, в kaggle формате, т.е. отсылаешь предсказания — получаешь оценку качества предсказания; побеждает тот, у кого лучше оценка. Второй — онсайт хакатон в Москве, на который проходит топ 20 команд первого этапа. В этой статье я расскажу об отборочном этапе, где мне удалось занять первое место и выиграть макбук. Команда на лидерборде называлась "дети Лёши".

Соревнование проходило с 19 сентября до 12 октября. Я начал решать ровно за неделю до конца и решал почти фулл-тайм.

Краткое описание соревнования:

Летом в банковском приложении Тинькофф появились stories (как в Instagram). На story можно отреагировать лайком, дизлайком, скипнуть или просмотреть до конца. Задача предсказать реакцию пользователя на story.

Соревнование по большей части табличное, но в самих историях есть текст и картинки.

Читать дальше →

+26

selesnow 16 мар 2020 в 10:56

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

19 мин

16K

Python*Data Mining*Big Data*R*Data Engineering*

Туториал

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.

Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.

В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.

Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать дальше →

+19

1anisim 18 ноя 2019 в 10:00

Записи докладов ок.tech: Data Толк #3

1 мин

2.2K

Блог компании ОКData Mining*Big Data*Машинное обучение*Искусственный интеллект

6 ноября в московском офисе компании Одноклассники прошел ок.tech Data Толк #3, в этот раз мероприятие было посвящено рекомендательным системам. Вместе с коллегами из OK.ru, Joom и СколТеха мы поговорили про прошедший RecSys19, а также о теории, практике и трендах рекомендательных систем.

Заходите под кат, если вам интересны рекомендательные системы.
Внутри поста: видеозаписи докладов и дискуссии, а также презентации спикеров.

+15

1anisim 29 ноя 2019 в 11:23

ок.tech: Data Толк #4 новогодний выпуск

3 мин

1.9K

Блог компании ОКData Mining*Big Data*Машинное обучение*Искусственный интеллект

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за это время Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.

Читать дальше →

+10

1anisim 10 дек 2019 в 09:00

ок.tech: Data Толк #4 интервью спикеров

4 мин

1.2K

Блог компании ОКData Mining*Big Data*Машинное обучение*Искусственный интеллект

Подходит к концу десятилетие, и без преувеличения можно сказать, что одной из основных тенденций этих десяти лет стало повсеместное внедрение анализа данных. От проектирования самолётов до выплавки стали, от вызова такси до умных чайников и говорящих колонок. Рекомендательные системы, компьютерное зрение, обработка естественного языка, машинное обучение, оптическое распознавание символов, нейронные сети, искусственный интеллект, все эти направления деятельности прочно закрепились в мире информационных технологий и нет ни малейшего повода полагать, что в ближайшее время что-то изменится. Общественность ждёт, что Data Science придет во все большее количество сфер жизни человека, автомобили станут беспилотными, а границы государств будут охранять огромные боевые человекоподобные роботы.

Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем. Ответы на все эти вопросы вы сможете получить 16 декабря на ок.tech: Data Толк #4. В предверии мероприятия мы поговорили со спикерами о прошлом настоящем и будущем Data Science. Под катом вас ждут мини-интервью.

Зарегистрироваться на мероприятие.

Читать дальше →

+11

atepaevm 11 янв 2020 в 02:02

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя?

9 мин

16K

Data Mining*Социальные сети и сообщества

Привет, Хабр!

Новогодние праздники — отличное время, чтобы ~~отдохнуть от IT~~ использовать профессиональные навыки в любимом хобби. Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и строго оффлайновом коммьюнити. Под катом картинки графов и бесполезная статистика.

Читать дальше →

+27

byrdas 23 мая 2020 в 21:23

Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc, Oxxxymiron, Дядя Женя. Эпизод 2

8 мин

11K

Data Mining*R*Natural Language Processing*

R. Text Mining. Rap. Episode 2

Данная статья является продолжением материала «Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern» и сейчас я постараюсь детально проанализировать творчество Нойз Мс и Оксимирона. Однако, хочу отметить, что это не будет сравнение между ними. Цель этой статьи не показать кто из них круче, а передать глубину и разнообразие их музыки, которой мы имеем возможность наслаждаться в реальном времени. Нам очень повезло, что мы можем следить за их успехами и ходить на их концерты. В этом материале не будет сопоставления как в первой части, не будет такого сильного контраста.

В этот раз анализ также делался при помощи R, Python и API Genius.com Подробнее можно прочитать в первой части, так как не хочу повторяться.

Читать дальше →

+12

prinkov 24 мая 2020 в 15:40

Простой пример кластерного анализа алкогольных предпочтений по странам на R

8 мин

10K

Data Mining*Математика*R*

Привет, Хабр! Сегодня хочу поделиться небольшим примером того, как можно проводить кластерный анализ. В этом примере читатель не найдет нейронных сетей и прочих модных направлений. Данный пример может служить точкой отсчета для того, чтобы сделать небольшой и полный кластерный анализ для других данных. Всем заинтересованным — добро пожаловать под кат.

Читать дальше →

2 3 ...

25 26