Articles / Bookmarks / Profile of Sunny

Александра Ороновская @Sunny_Space

Пользователь

Profile Publications 2Comments 18Bookmarks 28

nishmametev Aug 31 2021 at 13:00

Эксперименты в Ситимобил. Эпизод 2: Атака тестов на Switchback

10 min

5.3K

Mathematics*Machine learning*Ситимобил corporate blog

Всем привет! На линию выходит команда динамического ценообразования Маркетплейса СитиМобил.

В прошлый раз мы начали вести длинный рассказ о том, как правильно проводить эксперименты в многосторонних маркетплейсах. Мы рассуждали о смысле происходящего; о предпосылках, почему вообще стоит задуматься над этой темой, и почему эксперименты не классическими рандомизированными подходами едины.

Сегодня мы расскажем о практических шагах и ответим на главные, волнующие всех экспериментаторов вопросы: какими статистическими методами можно проверить switchback-тест и как выбрать подходящий.

+10

capissimo May 12 2021 at 05:19

Python и статистический вывод: часть 3

22 min

42K

Python*Programming*Data Mining*Studying in ITStatistics in IT

Tutorial

Для статистиков и исследователей данных проверка статистической гипотезы представляет собой формальную процедуру. Стандартный подход к проверке статистической гипотезы подразумевает определение области исследования, принятие решения в отношении того, какие переменные необходимы для измерения предмета изучения, и затем выдвижение двух конкурирующих гипотез. Во избежание рассмотрения только тех данных, которые подтверждают наши субъективные оценки, исследователи четко констатируют свою гипотезу заранее. Затем, основываясь на данных, они применяют выборочные статистики с целью подтвердить либо отклонить эту гипотезу.

capissimo May 11 2021 at 16:37

Python и статистический вывод: часть 1

12 min

17K

Python*Programming*Data Mining*Studying in ITStatistics in IT

Tutorial

В предыдущей серии постов для начинающих (первый пост тут) из ремикса книги Генри Гарнера «Clojure для исследования данных» (Clojure for Data Science) на языке Python было представлено несколько численных и визуальных подходов, чтобы понять, что из себя представляет нормальное распределение. Мы обсудили несколько описательных статистик, таких как среднее значение и стандартное отклонение, и то, как они могут использоваться для краткого резюмирования больших объемов данных.

Набор данных обычно представляет собой выборку из некой более крупной популяции, или генеральной совокупности. Иногда эта популяция слишком большая, чтобы быть измеренной полностью. Иногда она неизмерима по своей природе, потому что она бесконечна по размеру либо потому что к ней нельзя получить непосредственный доступ. В любом случае мы вынуждены делать вывод, исходя из данных, которыми мы располагаем.

В этой серии из 4-х постов мы рассмотрим статистический вывод: каким образом можно выйти за пределы простого описания выборок и вместо этого описать популяцию, из которой они были отобраны. Мы подробно рассмотрим степени нашей уверенности в выводах, которые мы делаем из выборочных данных. Мы раскроем суть робастного подхода к решению задач в области исследования данных, каким является проверка статистических гипотез, которая как раз и привносит научность в исcледование данных.

В конце заключительного поста можно будет проголосовать за или против размещения следующей серии постов. А пока же…

rbunin Jul 5 2023 at 14:29

Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse

Medium

6 min

13K

Big Data*Data visualization*Cloud services*Yandex Cloud & Yandex Infrastructure corporate blog

Привет! Меня зовут Роман Бунин, я BI-евангелист Yandex DataLens. При росте объёма данных, что неизбежно для любой компании, загрузка дашбордов может замедляться до десятков секунд. И чем больше появляется данных, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам.Связка базы данных ClickHouse и BI-системы Yandex DataLens — популярное решение для анализа данных: эти инструменты нативно интегрируются и быстро работают вместе. В этой статье вместе с моим коллегой, архитектором Yandex Cloud Игорем Путятиным, покажем, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд, и расскажем о технических ограничениях.

+18

madrugado Jul 17 2017 at 14:03

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

19 min

133K

Search engines*Python*Data Mining*Machine learning*Open Data Science corporate blog

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать дальше →

+36

Siarshai Jan 4 2017 at 14:18

Методы оптимизации нейронных сетей

17 min

213K

Algorithms*Mathematics*Machine learning*

В подавляющем большинстве источников информации о нейронных сетях под «а теперь давайте обучим нашу сеть» понимается «скормим целевую функцию оптимизатору» лишь с минимальной настройкой скорости обучения. Иногда говорится, что обновлять веса сети можно не только стохастическим градиентным спуском, но безо всякого объяснения, чем же примечательны другие алгоритмы и что означают загадочные $\inline \beta$ и $\inline \gamma$ в их параметрах. Даже преподаватели на курсах машинного обучения зачастую не заостряют на этом внимание. Я бы хотел исправить недостаток информации в рунете о различных оптимизаторах, которые могут встретиться вам в современных пакетах машинного обучения. Надеюсь, моя статья будет полезна людям, которые хотят углубить своё понимание машинного обучения или даже изобрести что-то своё.

Под катом много картинок, в том числе анимированных gif.

Читать дальше →

+78

JulliaShulga Oct 10 2023 at 19:03

Хакни своё следующее интервью с помощью Generative AI

Medium

6 min

Artificial IntelligenceInterview

Translation

А Вы когда‑то задумывались о том, как классно было бы хакнуть собеседование? Создать себе цифрового помощника, который ответит на все вопросы интервьюера.

Вот и я задумался. В этой статье предлагаю создать небольшое приложение на основе Whisper для распознавания речи и ChatGPT для генерации текста. Также добавим простой пользовательский интерфейс, чтобы облегчить себе наше «списывание».

+23

karpovcourses Feb 25 2023 at 15:58

10 первых ошибок в карьере ML-инженера

Easy

12 min

24K

Python*Machine learning*Studying in ITIT career

Machine learning season

Работа ML-инженера заключается не только в обучении моделей — хороший специалист погружается в бизнес-контекст, умеет доносить мысли до коллег без ML-бэкграунда, а также не забывает про тесты, дизайн-документы и документацию.

Богдан Печёнкин, автор Симулятора ML, собрал 10 ошибок специалистов, которые зачастую встречаются в первые годы карьеры.

Узнать больше

+39

AlexeyChijov Oct 11 2022 at 13:34

Что нужно знать системному аналитику уровня Middle и Senior: план развития Hard Skills

11 min

97K

System Analysis and Design*Studying in ITIT career

From sandbox

Решил составить для себя план развития (я в IT с 2007, как аналитик - с 2017). Что получилось: некий чек-лист с перечислением 13 блоков (от работы с требованиям до безопасности) с описанием, что обязательно и желательно знать/уметь.

С чего все началось. Я недавно менял работу, поэтому готовился к техническим собеседованиям. Для удобства составил шпаргалку частых вопросов по основным темам. Когда проходил собеседования и видел, чего я не знаю, то дописывал это в свою шпаргалку. А немного позже решил составить для себя что-то наподобие плана развития. При создании плана использовал личный опыт, опыт коллег, ряд статей, учебные планы нескольких школ, требования из вакансий.

+23

Dirac Jan 26 2021 at 13:15

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

18 min

42K

Python*Programming*Algorithms*Machine learning*Artificial Intelligence

Tutorial

Можете представить себе классификатор изображений, решающий практически любую задачу, и который вообще не нужно обучать? Это новая нейросеть CLIP от OpenAI. Разбор CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере Звездных Войн!

Нет данных, нет разметки, но нужен классификатор изображений для конкретной задачи? Нет времени возиться с обучением нейронной сети, но нужно получить классификацию высокой точности? Все это стало возможным. Вам нужно обучение без обучения!

Готов и туториал: Собираем нейросети. Классификатор животных из мультфильмов. Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Подробно и доступно разбираем что такое "обучение без обучения" и саму нейросеть CLIP от OpenAI. Стираем границы между Текстом и Изображением. Внимание: статья подходит под любой уровень: от нулевого до профи. Приятного прочтения!

Поехали!

+28

dimitryabramov Mar 6 2023 at 23:43

Тайны мозга. Анализируем данные MRI с помощью FreeSurfer и Python

Medium

7 min

2.2K

Python*Data visualization*Popular scienceBrainThe future is here

Tutorial

Визуализация мозга это революционное направление в неврологии, оно позволяет исследователям получать беспрецедентное представление о структуре и функциях человеческого мозга. Одной из областей, где визуализация показала особые перспективы, является выявление паттернов мозговой активности, связанных с различными предрасположенностями, такими как черты личности, когнитивные способности и психические расстройства. В этой статье мы рассмотрим, как эту технологию можно использовать для выявления предрасположенностей человека, и какие открытия были сделаны в этой области, увидим как, используя данные MRI получить сведения о базовых структурах мозга на примере его коры.

Kraleks Mar 3 2023 at 00:13

Бот для телеграмма, использующий Яндекс.Диск (Python)

13 min

26K

Python*Yandex API*

From sandbox

Всем привет!

О том как я делал бота, который файлы с Яндекс.Диска показывает, для лично-производственных целей.

+28

ivolake Apr 15 2022 at 12:55

Поднимаем Apache Superset — необходимый и достаточный гайд

9 min

39K

PostgreSQL*IT Infrastructure*Apache*Data visualization*DIY

From sandbox

Пингвины для привлечения внимания. Как поднять Apache Superset, подключить к нему локальный Postgres и чтобы потом на вас коллеги не смотрели косо.

m9_psy Aug 3 2016 at 12:17

Математика для искусственных нейронных сетей для новичков, часть 1 — линейная регрессия

8 min

151K

Python*Machine learning*

From sandbox

Введение

Этим постом я начну цикл «Нейронные сети для новичков». Он посвящен искусственным нейронным сетям (внезапно). Целью цикла является объяснение данной математической модели. Часто после прочтения подобных статей у меня оставалось чувство недосказанности, недопонимания — НС по-прежнему оставались «черным ящиком» — в общих чертах известно, как они устроены, известно, что делают, известны входные и выходные данные. Но тем не менее полное, всестороннее понимание отсутствует. А современные библиотеки с очень приятными и удобными абстракциями только усиливают ощущение «черного ящика». Не могу сказать, что это однозначно плохо, но и разобраться в используемых инструментах тоже никогда не поздно. Поэтому моей первичной целью является подробное объяснение устройства нейронных сетей так, чтобы абсолютно ни у кого не осталось вопросов об их устройстве; так, чтобы НС не казались волшебством. Так как это не математический трактат, я ограничусь описанием нескольких методов простым языком (но не исключая формул, конечно же), предоставляя поясняющие иллюстрации и примеры.

Цикл рассчитан на базовый ВУЗовский математический уровень читающего. Код будет написан на Python3.5 с numpy 1.11. Список остальных вспомогательных библиотек будет в конце каждого поста. Абсолютно все будет написано с нуля. В качестве подопытного выбрана база MNIST — это черно-белые, центрированные изображения рукописных цифр размером 28*28 пикселей. По-умолчанию, 60000 изображений отмечены для обучения, а 10000 для тестирования. В примерах я не буду изменять распределения по-умолчанию.

Читать дальше →

+40

devaka Mar 4 2013 at 00:58

Жизнь разработчика (в картинках)

1 min

65K

Website development*

Взято отсюда специально для хабра. Возможно, в некоторых из ситуаций вы узнаете себя.

Когда я показываю босу, что окончательно пофиксил баг

Когда проджект-менеджер входит в офис

Читать дальше →

+516

132

lozga Nov 28 2016 at 04:37

Как худеют наши ракеты

4 min

32K

Popular scienceAstronautics

Интересная тенденция появилась в отечественной космонавтике. Привычные нам ракеты-носители начинают облегчать, убирая одну из ступеней. Тяжелый «Протон» уже совсем скоро обзаведется средней и легкой версией, а недавно появилась новость, что и у «Союза» появится новый легкий вариант. Как и зачем «худеют» ракеты?

Читать дальше →

+56

BasmanovDaniil Jun 20 2013 at 13:47

Кручу-верчу, запутать хочу: углы Эйлера и Gimbal lock

3 min

126K

Game development*Algorithms*Unity3D*

Выставите любой палец левой руки вперед. Давайте, не стесняйтесь, никто не будет над вами смеяться. Это нужно для важного эксперимента. Выставили? Теперь представьте что вы — это ваш палец (ну и бред). Повернитесь под прямым углом направо, затем наверх, и наконец налево. Где вы оказались? Правильно, в том же месте, но уже на спине.

С некоторой натяжкой именно так работает вращение с помощью углов Эйлера. Немного непредсказуемо и неудобно, не правда ли? Углы Эйлера имеют несколько недостатков, но есть одно особенно нехорошее свойство из-за которого вы не захотите с ними связываться. Его имя — Gimbal lock.

В русском языке gimbal lock называют по-разному: шарнирный замок, блокировка осей, складывание рамок. К сожалению, по запросам в поисковике с такими ключевыми словами выдаётся много мусора, а статья в Википедии оставляет желать лучшего, поэтому я сам расскажу вам об этом феномене и предложу как с ним бороться.

Внимание! Заходя под кат вы подвергаетесь риску поломать голову.

Ха! Я ничего не боюсь! Где этот gimbal lock?

+53

m1rko Feb 20 2019 at 23:54

Audio AI: выделяем вокал из музыки с помощью свёрточных нейросетей

12 min

58K

Image processing*Machine learning*Sound

Translation

Взлом музыки для демократизации производного контента

Отказ от ответственности: вся интеллектуальная собственность, проекты и методы, описанные в этой статье, раскрыты в патентах US10014002B2 и US9842609B2.

Вот бы вернуться в 1965 год, постучать в парадную дверь студии «Эбби-Роуд» с пропуском, зайти внутрь — и услышать настоящие голоса Леннона и Маккартни… Что ж, давайте попробуем. Входные данные: MP3 среднего качества песни «Битлз» We Can Work it Out. Верхняя дорожка — входной микс, нижняя дорожка — изолированный вокал, который выделила наша нейросеть.

Читать дальше →

+67

DmitrySpb79 Feb 20 2019 at 23:03

Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая

79 min

Python*Programming*Web analytics*Statistics in ITSocial networks and communities

Привет Хабр!

В первой части пятничного анализа была рассмотрена методика сбора некоторой статистики этого замечательного сайта. Изначально не было плана делать продолжение, но в комментариях возникли интересные мысли, которые захотелось проверить. Например, какие статьи имеют больше просмотров, опубликованные в будние или в выходные дни?

Попробуем ответить на этот и другие вопросы, также опубликуем свой чисто научный статистический мини-рейтинг. Как и в первой части, для сбора статистики воспользуемся Python, Pandas и Matplotlib.

Для тех кому интересно что получилось, продолжение под катом.

Читать дальше →

+22

olegbunin Feb 20 2018 at 21:00

Как лучше разбираться в людях

31 min

102K

Конференции Олега Бунина (Онтико) corporate blogDevelopment Management*Project management*Community management*Personnel Management*

Рассказывать айтишникам про психологию то еще дело, некоторые читатели скажут: «Bullshit!», и вообще не поверят, потому что психологию, даже прикладную, нельзя назвать точной наукой. Тем не менее, задача этой статьи — показать и доказать вам, что некоторые модели действительно работают. В основе доклад Сергея Котырева из UMI на РИТ++ 2017, от его лица дальше и пойдет повествование.

Я — IT-предприниматель с 20 летним стажем. Так получилось, что с самого начала карьеры мне пришлось управлять людьми. Как выпускник технического вуза и айтишник, я изначально понял, что люди сложно поддаются алгоритмизации, и вообще осознанию, пониманию и прогнозированию.

Позже я пришел к мысли, что люди — это вообще самое сложное, с чем приходится работать. Сейчас я думаю, что люди вообще, наверное, самое сложное, что есть во Вселенной.

Мне кажется, о поведении и предсказании поведения спиральных галактик мы знаем больше, чем о том, как поведет себя человек, например, моя жена, сотрудник, или особенно сотрудница моего отдела маркетинга, не говоря уже о пиарщицах. О том, что ближайшая к нам Галактика летит, и через сколько-то миллиардов лет столкнется с нашей, мы уже знаем точно.

+99

Эксперименты в Ситимобил. Эпизод 2: Атака тестов на Switchback

Python и статистический вывод: часть 3

Python и статистический вывод: часть 1

Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

Методы оптимизации нейронных сетей

Хакни своё следующее интервью с помощью Generative AI

10 первых ошибок в карьере ML-инженера

Что нужно знать системному аналитику уровня Middle и Senior: план развития Hard Skills

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

Тайны мозга. Анализируем данные MRI с помощью FreeSurfer и Python

Бот для телеграмма, использующий Яндекс.Диск (Python)

Поднимаем Apache Superset — необходимый и достаточный гайд

Математика для искусственных нейронных сетей для новичков, часть 1 — линейная регрессия

Оглавление

Введение

Жизнь разработчика (в картинках)

Как худеют наши ракеты

Кручу-верчу, запутать хочу: углы Эйлера и Gimbal lock

Audio AI: выделяем вокал из музыки с помощью свёрточных нейросетей

Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая

Как лучше разбираться в людях

Information